Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

11
Qualidade de Dados para Distribuic ¸˜ ao de Produtos Agr´ ıcolas Jaime Bueno Junior 1 Prof. Nilton Hideki Takagi 2 1 Analista de Sistemas Instituto de Computac ¸˜ ao – Universidade Federal de Mato Grosso (UFMT) Campus Cuiab´ a – MT – Brasil 2 Mestre em Sistemas de Computac ¸˜ ao Instituto de Computac ¸˜ ao - Universidade Federal de Mato Grosso (UFMT) Campus Cuiab´ a - MT - Brasil [email protected], [email protected] 1. Abstract Data quality has become critical, inaccurate and unstable data compromise the results of most organizations. In the field of distribution of agricultural inputs to gain some compe- titive advantage respond in a short time is a differential directly related to data quality.This article addresses data quality issues by describing, identifying, and classifying related is- sues. The study is based on administrative information on the marketing and distribution of agricultural products. 2. Resumo A qualidade dos dados tornou-se fundamental, dados imprecisos e inst´ aveis comprome- tem os resultados da maioria das organizac ¸˜ oes. No ramo de distribuic ¸˜ ao de insumos agr´ ıcolas para ganhar alguma vantagem competitiva responder em um curto espac ¸o de tempo ´ e um diferencial diretamente relacionado ` a qualidade dos dados. Este artigo aborda quest˜ oes de qualidade dos dados, descrevendo, identificando e classificando os problemas relacionados. O estudo baseia-se em informac ¸˜ oes administrativas de comercializac ¸˜ ao e distribuic ¸˜ ao de produtos agr´ ıcolas. 3. Introduc ¸˜ ao Na agricultura empresarial os custos com insumos representam uma grande fatia dos gas- tos. No estado de Mato Grosso safra 2015/2016 para o plantio de soja representaram aproximadamente 65% dos custos de produc ¸˜ ao por hectare (Fig. 1). As press˜ oes por prec ¸os competitivos e o desejo de melhorar os ganhos exigem esforc ¸os para manter uma base de dados confi´ avel que muitas vezes podem conter dados impre- cisos e inst´ aveis que comprometem os resultados. No ramo de distribuic ¸˜ ao de insumos agr´ ıcolas a qualidade dos dados ´ e primordial para as organizac ¸˜ oes. Um dado inconsistente, ao n´ ıvel organizacional, pode significar elevados preju´ ızos. A cada dia que passa, s˜ ao colocados novos desafios ` as empresas, obrigando-as a responder, em curtos espac ¸os de tempo, para poderem ganhar alguma vantagem competitiva, face ` a sua maior concorrˆ encia. A informac ¸˜ ao assume, cada vez mais, um papel de “arma” numa guerra, cada vez mais desleal. Esta nova faceta obriga as organizac ¸˜ oes a planejarem as suas intervenc ¸˜ oes, de forma sustentada, sendo, para isso, necess´ ario utilizar todos os re- cursos que os seus sistemas de informac ¸˜ ao lhes podem fornecer.

Transcript of Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

Page 1: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

Qualidade de Dados para Distribuicao de Produtos Agrıcolas

Jaime Bueno Junior 1 Prof. Nilton Hideki Takagi 2

1 Analista de SistemasInstituto de Computacao – Universidade Federal de Mato Grosso (UFMT)

Campus Cuiaba – MT – Brasil

2Mestre em Sistemas de ComputacaoInstituto de Computacao - Universidade Federal de Mato Grosso (UFMT)

Campus Cuiaba - MT - Brasil

[email protected], [email protected]

1. Abstract

Data quality has become critical, inaccurate and unstable data compromise the results ofmost organizations. In the field of distribution of agricultural inputs to gain some compe-titive advantage respond in a short time is a differential directly related to data quality.Thisarticle addresses data quality issues by describing, identifying, and classifying related is-sues. The study is based on administrative information on the marketing and distributionof agricultural products.

2. Resumo

A qualidade dos dados tornou-se fundamental, dados imprecisos e instaveis comprome-tem os resultados da maioria das organizacoes. No ramo de distribuicao de insumosagrıcolas para ganhar alguma vantagem competitiva responder em um curto espaco detempo e um diferencial diretamente relacionado a qualidade dos dados. Este artigo abordaquestoes de qualidade dos dados, descrevendo, identificando e classificando os problemasrelacionados. O estudo baseia-se em informacoes administrativas de comercializacao edistribuicao de produtos agrıcolas.

3. Introducao

Na agricultura empresarial os custos com insumos representam uma grande fatia dos gas-tos. No estado de Mato Grosso safra 2015/2016 para o plantio de soja representaramaproximadamente 65% dos custos de producao por hectare (Fig. 1).As pressoes por precos competitivos e o desejo de melhorar os ganhos exigem esforcospara manter uma base de dados confiavel que muitas vezes podem conter dados impre-cisos e instaveis que comprometem os resultados. No ramo de distribuicao de insumosagrıcolas a qualidade dos dados e primordial para as organizacoes.Um dado inconsistente, ao nıvel organizacional, pode significar elevados prejuızos. Acada dia que passa, sao colocados novos desafios as empresas, obrigando-as a responder,em curtos espacos de tempo, para poderem ganhar alguma vantagem competitiva, face asua maior concorrencia. A informacao assume, cada vez mais, um papel de “arma” numaguerra, cada vez mais desleal. Esta nova faceta obriga as organizacoes a planejarem assuas intervencoes, de forma sustentada, sendo, para isso, necessario utilizar todos os re-cursos que os seus sistemas de informacao lhes podem fornecer.

Page 2: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

O valor atribuıdo a estes dados esta diretamente relacionado com a sua qualidade, assim,quanto maior for a qualidade dos dados, maior a sua utilidade[1]. Para as empresas dedistribuicao, este tipo de informacao e essencial na estrategia comercial e na gestao fi-nanceira. Na maioria dos sistemas, a qualidade dos dados e totalmente negligenciada,podendo tornar-se um pesadelo.

3.1. ObjetivoO objetivo desse trabalho e entender e identificar um quadro teorico para a medicao dequalidade de dados. Demostrar os resultados obtidos nas analises e propor melhorias quegarantam a qualidade dos dados.

3.2. Objetivos EspecıficosPara alcancar esse objetivo sera desenvolvido mecanismo de analise e validacao em bancode dados e demonstrando os resultados em indicadores de business intelligence.

4. Qualidade dos DadosA qualidade de dados (QD) e um conceito relativo, os dados podem ser qualitativamenteapropriados para um determinado proposito, mas podem nao o ser noutro domınio[2].Para garantir a qualidade de dados, devem ser respeitadas algumas regras basicas: (1)coerencia, (2) integridade, (3) consistencia e (4) atualidade [2,3-5].Os dados sao produzidos, armazenados e consumidos. A producao dos dados ocorrepor todos os profissionais envolvidos no processo de distribuicao, sao responsaveis pelopreenchimento e atualizacao das informacoes. A responsabilidade pelo armazenamentoe gestao dos dados que garante a consistencia e confiabilidade e dos administradores debanco de dados. Os gestores, diretores e gerentes sao os consumidores, que analisam osdados e selecionam as informacoes relevantes para as tomadas de decisoes[5, 6]. Paraum gestor nem sempre e importante ter todos os dados de um cliente, mas sim que elessejam coerentes, consistentes e ausentes de erros para a tomada de decisoes.

4.1. EstruturaExitem muitas informacoes sobre a qualidade dos dados, acordo sobre a definicao e asdimensoes da qualidade dos dados, porem ha uma grande ambiguidade nos termos que

Page 3: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

sao usados. Em marco de 2007, a Comissao de Auditoria do Reino Unido publicou umquadro para apoiar a melhoria da qualidade dos dados no setor publico [11]. Este quadroapresenta seis caracterısticas-chave (dimensoes) de dados de boa qualidade: precisao,validade, confiabilidade, pontualidade, relevancia e integridade.

4.2. Trabalhos RelacionadosVarios autores contribuıram para a medicao, avaliacao e melhoria da qualidade dos dados.Um resumo das contribuicoes desses autores.Wang et al. [12], [13] e Redman [14]. em seu trabalho defendem a necessidade de di-mensoes bem definidas e orientadas para objetivos da qualidade dos dados multidimensio-nal. Essa visao inspirou varios autores a definir uma ampla gama de diferentes dimensoesde qualidade de dados. Kim et al. propos uma taxonomia de diferentes dimensoes dequalidade [15] e Batini et al. investigou as dimensoes mais comuns e como medir [16],[17]. Na definicao de medidas para dimensoes de qualidade de dados, Pipino et al. argu-mentou que uma distincao pode ser feita entre medidas objetivas e subjetivas [18]. Estadistincao foi desenvolvida ainda por Even et al. [19], [20], [21] que apontam a distincaoentre medidas imparciais e sem contexto e as medidas contextuais e de utilidade publica.De particular importancia no trabalho de Even et al. e a sua proposta de um con-junto de requisitos a que as medidas para a qualidade dos dados devem aderir. Esteconjunto de requisitos foi adotado e refinado por Heinrich et al. [22], que fornecemuma definicao axiomatica de uma medida de qualidade de dados, afirmando seis axi-omas: (Normalizacao, Intervalo Escalonado ,Interpretacao, Adaptividade, Viabilidade,Agregacao).

5. Impactos Sobre o NegocioDevido as regras internas da organizacao os dados analisados nao podem ser disponibi-lizados para uso fora da empresa e nem seu nome divulgado no trabalho. Respeitandoesses criterios foram identificados alguns impactos causados pela baixa qualidade dos da-dos analisados.O grafico abaixo demonstra em percentual os problemas e a relevancia de cada item paraa baixa qualidade dos dados.

Page 4: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

5.1. Impactos Operacionais

Foram identificadas varias situacoes que causaram impactos operacionais representandocustos com retrabalhos.

• Emissao de notas fiscais de complemento de preco causado por valores incorretos;

• Correcao de cadastros identificados com ausencia de valores;

• Correcao de calculo de impostos causados por alteracoes em operacoes fiscais;

• Ajustes de cadastros com violacao de singularidade, clientes diferentes com omesmo codigos no sistema;

• Manutencao de registros duplicados que estavam gerando duplicidade deinformacao;

• Falta de integridade, informacoes alteradas que perderam a referencia. Exp. Alte-rar o cliente do tıtulo gerado pela rotina de faturamento ficando divergente da notafiscal;

• Ajustes de unidades de medidas. A mesma unidade de medida cadastrada devarias formas (numerica, textual e alfanumerica).

5.2. Impactos Estrategicos

Os impactos estrategicos causados pela baixa qualidade dos dados foram relacionadosabaixo. Segundo os gestores da empresa o principal motivo e a possibilidade de levar aperda de clientes.

• Baixa credibilidade dos dados analisados;

• Demora na obtencao de informacao para toma de decisao;

• Dificuldade para implementar novas estrategias.

6. Problemas de Qualidade dos DadosProblemas de qualidade dos dados (PQD) podem custar milhoes as organizacoes, en-quanto desperdicam tempo a analisar dados, que acabam por levar a decisoes incorretas.Os PQD sao normalmente chamados de erros, de anomalias ou mesmo de “lixo”e in-cluem, entre outros, valores em falta e representacoes diferentes para o mesmo fato. Efrequente, em bases de dados em producao, encontrarmos entre 60-90% de dados comfraca qualidade, este problema e um obstaculo enorme, para a utilizacao destes dadosem determinadas analises [7]. E possıvel estudar os problemas de qualidade dos dadosem tres diferentes contextos: (1) quando se pretende corrigir uma anomalia, num unicoregisto de uma determinada BD; (2) quando dados, em BD nao relacionais, sao migra-dos para BD relacionais; (3) quando se pretende integrar varios registos, provenientes demultiplas fontes, num unico registo [8].

6.1. Metodologia

Estarei usando a metodologia proposta por Oliveira[10], por abrager a maioria dos proble-mas de qualidade de dados identifcados em uma amostragem feita conforme exemplos.

Page 5: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

6.2. Exemplos de PQD existentes:

1) Falta de atributos obrigatorios. Exemplo: Nome do cliente vazio.2) Erro de Syntax, formato de data errado. Exemplo: data de nascimento num formatoerrado.3) Violacao de domino, o atributo esta fora dos valores possıveis. Exemplo: idade comvalor negativo.4) Valor incorreto, o atributo contem um valor que nao e o correcto, embora esse valoresteja dentro dos valores aceitaveis. Exemplo: idade e 56 em vez de 59.5) Violacao de regra de negocio, este problema surge quando uma ou mais regras denegocio, previamente definidas, nao sao respeitadas. Exemplo: o nome do cliente temque ser constituıdo por pelo menos duas palavras, mas podem existir casos em que issonao aconteca.6) Violacao da singularidade, duas ou mais tuplas tem o mesmo valor num atributo devalor unico. Exemplo: o mesmo codigo de cliente para diferentes pessoas7) Existencia de sinonimos, utilizacao de expressoes diferentes para, indicar o mesmosignificado. Exemplo: utilizacao das designacoes “agrotoxicos” e “defensivos agrıcolas”8) Violacao da dependencia funcional, o valor do atributo viola uma dependencia funcio-nal com outros atributos. Exemplo: cadastros usando o mesmo codigo (codservico = 40;nomeservico = ‘nutricao’) e (codservico = 40; nomeservico = ‘agroquımico).9) Violacao de integridade referencial, o valor de uma referencia externa nao existe comochave primaria na tabela externa. Exemplo: codigo do produto “9999.091” nao existe natabela de produtos.10) Referencia incorreta, integridade referencial esta correta, mas o valor de referenciaesta errado. Exemplo: codigo do produto e “9999.001” em vez do codigo “9999.002”;ambos os codigos existem na tabela de produtos.11) Heterogeneidade das sintaxes, existencia de diferentes representacoes sintatica ematributos relacionados. Exemplo: o atributo datavenda tem a sintaxe dd/mm/yyyy, mas oatributo datafaturamento tem a sintaxe yyyy/mm/dd.12) Heterogeneidade de unidades de medida, utilizacao de diferentes unidades de me-dida, para guardar o mesmo valor. Exemplo: a quantidade vendida gravada numa tabelaem quilos e noutra em toneladas.13) Heterogeneidade de representacao, utilizacao de codigos diferentes, para representa-rem o mesmo valor real, em diferentes BDs. Exemplo: numa BD o sexo esta representadocom os valores (“1”, “2”) mas, noutra esta representado com os valores (“M”, “F”)).

7. Objetivos Geral

O objetivo desse trabalho e entender e identificar um quadro teorico para a medicao dequalidade de dados. Demostrar os resultados obtidos nas analises e propor melhorias quegarantam a qualidade dos dados.

7.1. Objetivos Especıficos

Para alcancar esse objetivo sera desenvolvido mecanismo de analise e validacao em bancode dados e demonstrando os resultados em indicadores de business intelligence.

Page 6: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

8. Resultados

8.1. Base de Dados utilizada

A Base de Dados utilizada contem informacoes de 23 filiais dos anos de 2014 a 2016.Como resultado, serao apresentados exemplos dos erros encontrados e a sua respectivaclassificacao, segundo a taxonomia apresentada anteriormente.

8.2. Ausencia de Valores

Este foi o tipo de erros mais encontrado nos dados analisado, ocorrendo em multiplasvariaveis. Em consideracao para a analise os valores relevantes como exemplo disso avariavel “tipo de cliente”, que indica se o atendimento foi para consumidor final, pro-dutor rural, revendedor, solidario ou exportacao (Fig. abaixo). O nao preenchimentodeste campo causa impacto negativo, pois e fundamental para o calculo de varios in-dicadores, como o ındice de atendimento usado para medir o desempenho das vendas.

8.3. Valores Incorretos

Durante este estudo foram detectadas algumas anomalias no campo “valor unitario”.Perante estas evidencias recalculou-se este valor com base nos precos de compras ecomparando o resultado deste calculo foram encontradas algumas diferencas. Estesresultados identificaram erros de digitacao de precos de produtos, foi adotado a partirde 2015 tabela de preco para sanar esse tipo de problema classificado com grau decriticidade alta.

Page 7: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

8.4. Violacao de Regra de Negocio

Foram identificadas inconsistencias em algumas operacoes fiscais, a mesma operacaofiscal apresentava diferenca no valor de calculo de ICMS. Esse problema foi ocasio-nado por alteracoes nas operacoes, sendo o correto cadastrar novas operacoes com novaparametrizacao. O problema foi classificado com grau de criticidade alta e restringido oacesso para alteracao de operacoes fiscais.

8.5. Violacao de Singularidade

Foram detectados 23 casos onde o codigo de cliente e o mesmo, mas o numero deidentificacao CPF/CNPJ e diferente. Suspeita-se que este problema possa ter ocorridodevido a inconsistencia no ERP, visto que o controle sequencial nao e gerenciado pelobanco de dados.

Page 8: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

8.6. Tuplas duplicadas Inconsistentes

Analisando todas as tuplas da BD, foram encontrados 2.382 casos de tuplas duplicados,ou seja, duas linhas da BD totalmente iguais.

8.7. Violacao de Integridade Referencial

Estudando a variavel “codigo de cliente+numero da nota fiscal” na tabela de contas areceber foram identificados 1.325 casos que nao tem a respectiva correspondencia natabela de faturamento. Esse problema ocorre devido a alteracao do codigo do cliente natabela de contas a receber. Para solucionar o problema foi implementando o processo detransferencia de tıtulos mantendo o rastreamento da operacao para nao perder o vınculocom a tabela de faturamento.

Page 9: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

8.8. Heterogeneidade de unidades de medida

Durante o estudo, foram detectadas diferentes representacoes da natureza financeira“servico”. Esta variavel, e usada para segmentar os tıtulos de pagamentos e recebimen-tos. Esta variavel surge com diferentes codificacoes de representacao. Um exemplo dissoesta representado na figura abaixo, onde o servico aparece designado em 234 casos como“SERV”, em 136 casos como “SERVICOS”.

9. Conclusao

A falta de qualidade de dados pode representar perdas de tempo, dinheiro e oportunidades.E essencial que se determine o nıvel de qualidade de dados necessario para a organizacao,dimensionando os esforco e recursos exigidos para mante-la. Alem disso, ha o problemade valor da informacao, pois, para um determinado usuario atribui-se a informacao umsignificado muito diferente do que outros usuarios [26].Os dados administrativos podem conter dados instaveis e imprecisos, embora continuema ser usados diariamente [9,23]. Em inumeras situacoes, continuam a ser o unico meiodisponıvel para obtencao de valores de producao, ou mesmo, no auxılio as tomadas dedecisao por parte dos administradores e gerentes. Identificados e resolvidos alguns dos

Page 10: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

problemas existentes [24-25], os dados administrativos podem ser usados na producao deindicadores ou na producao de benchmarks representativos. As organizacoes estao cadavez mais preocupadas com a reducao dos custos, sem diminuir a qualidade entregando aocliente os melhores produtos e servicos.Os esforcos na melhoria da qualidade de dados das base de dados premeiam asinstituicoes, possibilitando-lhes suporte para tomadas de decisao mais precisas e coe-rentes, podendo, assim, melhorar a qualidade da prestacao de servicos e reduzir os custosassociados a esses atos.

10. Referencias[1]D. Arts, N. Keizer, G.-J. Scheffer. Defining and Improving Data Quality in MedicalRegistries: A Literature Review Case Study, and GenericFramework. J Am Med InformAssoc 2002;9: 600-611.[2]G. K. Tayi, D. P. Ballou. Examining Data Quality. CACM 1998;41[3]J. C. Wyatt, J. L. Y. Liu. Basic Concepts in Medical Informatics. J.Epidemiol Com-munity Health 2002;56: 808-812.[4]R. Y. Wang. A Product Perspective on Total Data Quality Management.CACM1998;41: 58-65.[5]M. Gertz, M. T. Ozsu, G. Saake, K.-U. Sattler. Data Quality on the Web.SIGMODRecord 2004;33: 127-132.[6]D. M. Strong, Y. W. Lee, R. Y. Wang. Data Quality in Context. CACM1997;40: 103-110.[7]K. Orr. Data Quality and Systems Theory. CACM 1998;[8]T. Dasu, G. T. Vesonder, J. R. Wright. Data Quality through Knowledge Engineering.SIGKDD’ 03. Washington: 2003. 705-710.[9]L. I. Iezzoni. Assessing Quality Using Administrative Data. Ann Intern Med1997;127: 666-673.[10]P. Oliveira, F. Rodrigues, P. Henriques, H. Galhardas. A Taxonomy of Data QualityProblems. 2nd International Workshop on Data and Information Quality. Porto, Portugal:2005.[11]“Improving information to support decision making: standards for better qualitydata,” Audit Commission, Report, 2007.[12]R. Wang, V. Storey, and C. Firth, “A framework for analysis of data quality research,”IEEE Transactions on Knowledge and Data Engineering, vol. 7, no. 4, pp. 623–640,1995.[13]R. Wang and D. Strong, “Beyond accuracy: What data quality means to data consu-mers,” Journal of Management Information Systems, vol. 12, no. 4, pp. 5–34, 1996.[14]T. Redman, Data Quality for the Information Age. Artech-House, 1996.[15]W. Kim, E.-K. Hong, S.-K. Kim, and D. Lee, “A taxonomy of dirty data,” Data Mi-ning and Knowledge Discovery, vol. 7, pp. 81–99, 2003.[16]C. Batini and M. Scannapieca, Data quality: concepts, methodologies and techniques.Springer-Verlag, 2006.[17]C. Batini, C. Cappiello, C. Francalanci, and A. Maurino, “Methodologies for dataquality assessment and improvement,” ACM Comuting Surveys, vol. 41, no. 3, pp.16–52, 2009.[18]L. Pipino, Y. Lee, and R. Wang, “Data quality assessment,” Communications of theACM, vol. 45, no. 4, pp. 211–218, 2002.

Page 11: Qualidade de Dados para Distribuic¸ao de Produtos Agr˜ ´ıcolas

[19]A. Even and G. Shankaranarayanan, “Value-driven data quality assessment,” in Pro-ceedings of the International Conference on Information Quality, 2005, pp. 265–279.[20]“Understanding impartial versus utility-driven quality assessment in large data-sets,” in Proceedings of the International Conference on Information Quality, 2007, pp.265–279.[21]“Utility-driven assessment of data quality,” The Database for Advances in Informa-tion Systems, vol. 38, no. 2, pp. 75–93, 2007.[22]B. Heinrich, M. Kaiser, and M. Klier, “How to measure data quality? a metric basedapproach,” in Proceedings of the International Conference on Information Systems, 2007,pp. 1–15.[23]D. Torchiana, G. Meyer. Use of administrative data for clinical quality measurement.J Thorac Cardiovasc Surg 2005;129: 1222-4.[24]A. E. Powell, H. T. O. Davies, R. G. Thomson. Using routine comparative data toassess the quality of health care: understanding and avoiding common pitfalls. Qual SafHealth Care 2003;12: 122–128.[25]J. M. Sutherland, C. K. Botz. The effect of misclassification errors on case mix mea-surement. Health Policy. 2006.[26]TAYI, Giri T.; BALLOU, Donald P. – “Examining Data Quality”, Communicationsof the ACM, V. 41, N! 2, fevereiro de 1998.