06965169

9
Automatic classification of physical defects in green coffee beans using CGLCM and SVM Rayner H. Montes Condori y Juan H. Chuctaya Humari y Christian E. Portugal-Zambrano y Juan C. Guti´ errez-C´ aceres atedra Concytec en Tecnolog´ ıas de la informaci´ on Escuela Profesional de Ingenier´ ıa de Sistemas Av. Venezuela s/n, Universidad Nacional de San Agust´ ın Arequipa - Per´ u Email: {ray.montes,juanherbert,christ.pz.cs,jcgutierrezc}@gmail.com esar A. Beltr´ an-Casta˜ on Grupo de Reconocimiento de Patrones e IA Aplicada Secci´ on de Ingenier´ ıa Inform´ atica Pontificia Universidad Cat´ olica del Per´ u Av. Universitaria 1801, San Miguel, Lima 32, Per´ u Email: [email protected] Abstract—This work is focused on the evaluation of physical coffee beans through a model of automatic classification of defects. The model uses a segmentation step that discriminates the background from the coffee bean image with a follow contours algorithm, then a CGLCM is introduced as features extractor and a Support Vector Machine for the classification task, a database of images has been collected with a total of 3367 images, the classification process used twelve categories of defects, the results of classification showed a accuracy of 86%. Finally a set of conclusions and future works are presented. Keywordscomputer vision; segmentation; feature extraction; coffee bean I. I NTRODUCCI ´ ON Se denomina caf´ e a la bebida que se obtiene de los frutos y semillas de la planta de caf´ e o cafeto (Coffea). Los granos del caf´ e son uno de los principales productos de origen agr´ ıcola que se comercializa en los mercados internacionales. Las plantas de caf´ e son originarias de la antig ¨ ua Etiop´ ıa. En Per ´ u el caf´ e se desarrolla en casi todas las regiones geogr´ aficas del territorio. Las etapas b´ asicas de procesamiento de granos de caf´ e co- mienza en las plantaciones, luego es cosechado (6 a 8 meses de madurez) para ser secado mediante t´ ecnicas especiales y artesanales (secado al sol). La etapa de secado brinda la coloraci´ on verde al grano, este posteriormente es clasificado para eliminar impurezas y granos malos o deformes, tambi´ en es clasificado por tama˜ no, se le aplica una etapa de pulido para mejorar su aspecto y finalmente puesto en venta a usuarios locales o globales. La naturaleza de exportaci´ on de los granos de caf´ e exigen un control de calidad f´ ısico y qu´ ımico (cataci´ on), los laboratorios de an´ alisis de calidad deben asegurar la competencia t´ ecnica del personal que opera equipos espec´ ıficos, ejecutan, eval´ uan los resultados y firman los informes de ensayos. A nivel mundial la SCAA (Specialty Coffe Asociation of America) [1] es una entidad que se encarga de capacitar y regular las calificaciones y programas de formaci´ on para aseguramiento de la calidad de exportaci´ on de granos de caf´ e. En el proceso de control de calidad f´ ısico de granos de caf´ e verde la SCAA describe un total de 16 defectos divididos en 2 categor´ ıas de impacto en taza, la presencia de cada uno de ellos influye directamente en el olor, sabor y consistencia de una taza de caf´ e valorizando el caf´ e en un conjunto de puntos de cataci´ on que eval´ uan su nivel de calidad. El proceso de evaluaci´ on f´ ısica para la determinaci´ on de defectos en caf´ e se determina por medio de una revisi´ on manual e individual de cada grano en una muestra de caf´ e luego, se elabora un conteo de todos lo granos por tipo de defecto clasificado, finalmente se elabora un registro que se incluye en el informe final de control de calidad de caf´ e. Normalmente la tarea de evaluaci´ on f´ ısica es visualmente ago- tadora y saturada en tiempos de producci´ on de caf´ e, haciendo la labor de los expertos propensa a errores o imprecisiones producto de la fatiga laboral. En la literatura se han hecho estudios de modelos computacio- nales, equipos de tecnolog´ ıa y/o metodolog´ ıas que intentan aprovechar el beneficio de las tecnolog´ ıas digitales para sopor- tar las tareas de catadores especializados en los laboratorios de control de calidad, tambi´ en se han desarrollado productos de software que asisten en la recolecci´ on de datos, sin embargo una soluci ´ on dedicada al proceso de control de calidad f´ ısico de granos de caf´ e verde para la detecci´ on autom´ atica de defectos no ha sido investigada a profundidad. En este trabajo se plantea un modelo de clasificaci´ on au- tom´ atica de defectos en granos de caf´ e verde mediante el uso de t´ ecnicas segmentaci´ on, extracci´ on de caracter´ ısticas y modelos de clasificaci´ on de im´ agenes, en la Secci´ on II presentamos los conceptos y trabajo previos necesarios para el desarrollo del trabajo, en la Secci´ on III describimos el proceso de control de calidad aplicado en la producci´ on industrial de granos de caf´ e para exportaci´ on, luego en la Secci´ on IV el modelo de clasificaci´ on de defectos autom´ atico es desarrollado en cuatro etapas. En la Secci´ on V las pruebas y resultados correspondientes son presentados, finalmente en la Secci´ on VI discutimos las conclusiones y trabajos futuros de este trabajo. II. CONCEPTOS Y TRABAJOS PREVIOS El tratamiento digital de im´ agenes de caf´ e ha permitido realizar estudios para su an´ alisis de caracter´ ısticas de forma, color y en algunos casos densidad, [2] en su libro realiza un conjunto de t´ ecnicas de an´ alisis de forma para la clasificaci´ on de objetos y alimentos, este trabajo plantea el uso de las formas como un discriminante esencial en procesos de clasificaci´ on, por otro lado [3] plantea de modo similar el uso de color como una herramienta para la segmentaci´ on y clasificaci´ on presentando algunos avances y teor´ ıas. 2014 XL Latin American Computing Conference (CLEI) 978-1-4799-6130-6/14/$31.00 c 2014 IEEE

description

Tesis de un trabajo de la unsa

Transcript of 06965169

  • Automatic classification of physical defects in greencoffee beans using CGLCM and SVM

    Rayner H. Montes Condori y Juan H. Chuctaya Humariy Christian E. Portugal-Zambrano y Juan C. Gutierrez-Caceres

    Catedra Concytec en Tecnologas de la informacionEscuela Profesional de Ingeniera de Sistemas

    Av. Venezuela s/n, Universidad Nacional de San AgustnArequipa - Peru

    Email: {ray.montes,juanherbert,christ.pz.cs,jcgutierrezc}@gmail.com

    Cesar A. Beltran-CastanonGrupo de Reconocimiento de Patrones e IA Aplicada

    Seccion de Ingeniera InformaticaPontificia Universidad Catolica del Peru

    Av. Universitaria 1801, San Miguel, Lima 32, PeruEmail: [email protected]

    AbstractThis work is focused on the evaluation of physicalcoffee beans through a model of automatic classification ofdefects. The model uses a segmentation step that discriminates thebackground from the coffee bean image with a follow contoursalgorithm, then a CGLCM is introduced as features extractor anda Support Vector Machine for the classification task, a databaseof images has been collected with a total of 3367 images, theclassification process used twelve categories of defects, the resultsof classification showed a accuracy of 86%. Finally a set ofconclusions and future works are presented.

    Keywordscomputer vision; segmentation; feature extraction;coffee bean

    I. INTRODUCCION

    Se denomina cafe a la bebida que se obtiene de los frutos ysemillas de la planta de cafe o cafeto (Coffea). Los granos delcafe son uno de los principales productos de origen agrcolaque se comercializa en los mercados internacionales. Lasplantas de cafe son originarias de la antigua Etiopa. En Peru elcafe se desarrolla en casi todas las regiones geograficas delterritorio.Las etapas basicas de procesamiento de granos de cafe co-mienza en las plantaciones, luego es cosechado (6 a 8 mesesde madurez) para ser secado mediante tecnicas especialesy artesanales (secado al sol). La etapa de secado brinda lacoloracion verde al grano, este posteriormente es clasificadopara eliminar impurezas y granos malos o deformes, tambienes clasificado por tamano, se le aplica una etapa de pulido paramejorar su aspecto y finalmente puesto en venta a usuarioslocales o globales.La naturaleza de exportacion de los granos de cafe exigen uncontrol de calidad fsico y qumico (catacion), los laboratoriosde analisis de calidad deben asegurar la competencia tecnicadel personal que opera equipos especficos, ejecutan, evaluanlos resultados y firman los informes de ensayos. A nivelmundial la SCAA (Specialty Coffe Asociation of America)[1] es una entidad que se encarga de capacitar y regular lascalificaciones y programas de formacion para aseguramientode la calidad de exportacion de granos de cafe.En el proceso de control de calidad fsico de granos decafe verde la SCAA describe un total de 16 defectos divididosen 2 categoras de impacto en taza, la presencia de cada uno deellos influye directamente en el olor, sabor y consistencia deuna taza de cafe valorizando el cafe en un conjunto de puntos

    de catacion que evaluan su nivel de calidad. El proceso deevaluacion fsica para la determinacion de defectos en cafe sedetermina por medio de una revision manual e individual decada grano en una muestra de cafe luego, se elabora un conteode todos lo granos por tipo de defecto clasificado, finalmentese elabora un registro que se incluye en el informe final decontrol de calidad de cafe.Normalmente la tarea de evaluacion fsica es visualmente ago-tadora y saturada en tiempos de produccion de cafe, haciendola labor de los expertos propensa a errores o imprecisionesproducto de la fatiga laboral.En la literatura se han hecho estudios de modelos computacio-nales, equipos de tecnologa y/o metodologas que intentanaprovechar el beneficio de las tecnologas digitales para sopor-tar las tareas de catadores especializados en los laboratorios decontrol de calidad, tambien se han desarrollado productos desoftware que asisten en la recoleccion de datos, sin embargouna solucion dedicada al proceso de control de calidad fsico degranos de cafe verde para la deteccion automatica de defectosno ha sido investigada a profundidad.En este trabajo se plantea un modelo de clasificacion au-tomatica de defectos en granos de cafe verde mediante eluso de tecnicas segmentacion, extraccion de caractersticasy modelos de clasificacion de imagenes, en la Seccion IIpresentamos los conceptos y trabajo previos necesarios para eldesarrollo del trabajo, en la Seccion III describimos el procesode control de calidad aplicado en la produccion industrial degranos de cafe para exportacion, luego en la Seccion IV elmodelo de clasificacion de defectos automatico es desarrolladoen cuatro etapas. En la Seccion V las pruebas y resultadoscorrespondientes son presentados, finalmente en la Seccion VIdiscutimos las conclusiones y trabajos futuros de este trabajo.

    II. CONCEPTOS Y TRABAJOS PREVIOS

    El tratamiento digital de imagenes de cafe ha permitidorealizar estudios para su analisis de caractersticas de forma,color y en algunos casos densidad, [2] en su libro realiza unconjunto de tecnicas de analisis de forma para la clasificacionde objetos y alimentos, este trabajo plantea el uso de las formascomo un discriminante esencial en procesos de clasificacion,por otro lado [3] plantea de modo similar el uso de colorcomo una herramienta para la segmentacion y clasificacionpresentando algunos avances y teoras.

    2014 XL Latin American Computing Conference (CLEI)

    978-1-4799-6130-6/14/$31.00 c2014 IEEE

  • Azul-Verde Azulador-Verde Verde Verdoso

    Verde-Amarillento Amarillo-Palido Amarillento Cafe

    Figura 1. Escala de coloracion del cafe verde, los cafes sin tostar presentan una coloracion que va desde el color azul-verdoso hasta el amarillo palidodependiendo del origen, proceso o tiempo de almacenamiento.

    En el mismo ano [4] realiza un estudio para la elaboracionde distintas formas de aplicar un tratamiento de secado ymojado de cafe en base a estandares internacionales, tam-bien describe un conjunto de tecnicas de almacenamiento,describiendolas como las mejores, este trabajo comienza aintroducir la necesidad de estudios que mejoren la producciony calidad de granos de cafe. Por otro lado [5] realiza unestudio para la utilizacion de tecnicas de vision artificial en eldesarrollo de un sistema para la automatizacion de la cosechade cafe, compuesto de una etapa de adquisicion de imagenes,un conjunto de algoritmos para segmentacion de frutos decafe maduros y verdes, finalmente implemento un algoritmopara la caracterizacion y clasificacion de frutos de cafe basadosen las propiedades morfologicas y de color, orientando sutrabajo al pronostico y automatizacion de cosechas y deteccionde enfermedades y plagas.En [6] el autor presenta tres modelos diferentes de segmenta-cion utilizando tecnicas basados en crecimientos de regionesa partir de semillas (Seeded Region Growing), sus modelosfueron aplicados a imagenes de frutos de cafe en condicionescontroladas, sus resultados mostraron un buen desempeno parala deteccion de bordes realizando un proceso de segmenta-cion robusto, este trabajo fue profundizado en [7] donde sedesarrollo un sistema de vision artificial para la clasificacionde frutos de cafe en once categoras basadas en su estado demadurez, extrajeron 208 caractersticas reduciendolas a 9 utili-zando metodos de seleccion univariados y multivariados, parala clasificacion utilizaron clasificadores bayesianos y redesneuronales resultando en tiempos de clasificacion de 0.8ms.Estos trabajos fueron expandiendo el estudio de tecnicas devision artificial y procesamiento de imagenes para el mejora-miento de la produccion y calidad de cafe, posteriormente [8]realizo un estudio de analisis de imagenes para la clasificacionde cafe de Etiopa, sin embargo utilizo muy poco criterios parala evaluacion de resultados. [9] resalto que la presencia degranos defectuosos deprecia la calidad de cafe para su consumoa nivel mundial, entonces propuso un ordenamiento por colorpara la clasificacion de granos defectuosos, por otro lado estemetodo no eres efectivo para granos cuyo defecto no se basaba

    en color, utilizo la Transformada Rapida de Fourier para laclasificacion.Luego en [10] el autor realizo un trabajo para desarrollar unsistema de ordenamiento automatico de granos de cafe utili-zando procesamiento de imagenes y una red neuronal parala identificacion de la calidad de cada grano, utilizo seisparametros de calidad como longitud, area, permetro, areadefectuosa y grado de color rojo y verde, estos parametrosfueron utilizados como entrada en la red neuronal, sus re-sultados fueron prometedores sin embargo describa algunasdesventajas debido a que no poda caracterizar todos los tiposde defectos con los parametros seleccionados.Tiempo despues, [11] utilizo el estandar nacional de Indonesiapara la deteccion de defectos, utilizando seis clases, utilizo unacamara web para la adquisicion de imagenes digitales degranos de cafe uniformemente iluminadas, luego realizo unproceso de extraccion basada en textura y, estos valores fueronutilizados como entrada a una red neuronal, posteriormenteconcluyo que su modelo de clasificacion posea un mnimo devariacion en la precision de 40 granos.

    III. CONTROL DE CALIDAD DE CAFE

    Es necesario detectar e identificar el tipo de defectos engranos de cafe verde debido a su influencia en el sabor dela bebida a preparar, la mejor calidad de grano de cafe verdetostado posee un olor a rosa fresca, contrariamente un cafe debaja calidad posee aroma a tierra humeda, en la Figura 1 sepresenta una escala de coloracion de cafe verde que dependedel nivel de tostado, proceso o tiempo de almacenamiento.Los catadores especializados poseen un entrenamiento unicopara la deteccion y caracterizacion de cada aroma de cafe enuna muestra de evaluacion, cada cafe posee un aroma particularque lo caracteriza y tambien define su nivel de calidad, paraeste trabajo consideramos que cuando se tenga dos defectos enun mismo grano se debe de considerar el defecto que tenga unmayor impacto en taza. La catacion es una tecnica profesionalpara la evaluacion de cafe, el experto realiza una evaluacionde cada grano presente en una muestra, realiza un conteo porcada tipo de defecto presente y procede a evaluar el impacto

    2014 XL Latin American Computing Conference (CLEI)

  • Cuadro I. TABLA DE EQUIVALENCIAS DE LOS DEFECTOS PRESENTESEN GRANOS DE CAFE VERDE [1]

    Defectos Defectos Defectos DefectosCategora 1 Totales Categora 2 Totales

    6 Equivalentes Equivalentes

    Grano Negro 1 Negro Parcial 3Grano Agrio/Vinagre 1 Agrio Parcial 3

    Cereza Seca 1 Pergamino 5Dano por Hongos 1 Flotador 5Materia Extrana 1 Inmaduro 5

    Grano Brocado Severo 5 Averanado o Arrugado 5Conchas 5

    Partido/Molido/Cortado 5Cascara o Pulpa Seca 5Grano Brocado Leve 10

    en taza de acuerdo a los valores mostrados en el Cuadro I,en este se puede apreciar que si se tiene un grano clasificadocomo Grano Negro, este pertenece a un defecto de categora Iy su equivalencia en taza es de un por grano, considerado dealto impacto, tambien si se tiene tres granos clasificados comoAgrio Parcial, estos son de categora II y por lo tanto se tieneun defecto equivalente, considerado de mediano impacto.

    IV. MODELO DE CLASIFICACION DE DEFECTOS

    En este trabajo se aborda el problema de clasificacionautomatica de defectos en granos de cafe verde a traves deun conjunto de etapas, primero se hace una recoleccion deimagenes de granos de cafe provenientes de una bandejadisenada para la adquisicion de imagenes, luego se realiza unproceso de segmentacion para obtencion de regiones de interesque discriminen el fondo, aislando los granos de cafe, a seguirse realiza un proceso de extraccion de caractersticas utilizandoun matriz de niveles de co-ocurrencia de tres colores, elvector de caractersticas para cada grano es procesado con unamaquina de vectores soporte como metodo de clasificacion.

    Figura 2. Muestra de cafes tipo Normal, tomada con iluminacion controladapor medio del prototipo de adquisicion de imagenes digitales del proyecto.

    A. Recoleccion de base de imagenes

    Para la obtencion de imagenes de granos de cafe verde seelaboro un prototipo de adquisicion de imagenes que mantenafija la distancia entre la camara y las muestras de cafe, tambien

    Cuadro II. DESCRIPCION DEL TOTAL DE GRANOS DE CAFE POR TIPODE DEFECTO EN LA BASE DE DATOS DE IMAGENES COLECTADA.

    Nro Nombre/Clase Alias Total1 Brocado Leve BrocadoL 4142 Brocado Severo BrocadoS 3133 Cereza Seca CerSeca 3244 Concha Concha 1965 Danho por Hongo DxHongo 3556 Flotador Flotador 2447 Inmaduro Inmaduro 2358 Marron,Agrio,Vinagre MAVinagre 1929 Negro Negro 14410 Normal Normal 60711 Negro Parcial NParcial 13912 Pergamino Pergamino 12813 Partido,Mordido,Cortado PMCortado 76

    TOTAL : 3367

    la incidencia de luz utilizada, tambien tenemos las siguientesconsideraciones:

    Consideramos que para detectar si un grano posee undefecto se debe de analizar sus dos caras, sin embargoel objetivo actual es detectar el defecto sin importar lacara del grano, de este modo restringimos el alcancedel problema a detectar defectos visibles a la camara.

    Por cada muestra de cafe se tienen varias imagenes,resultando en un total de granos de diferentes tipospor cada imagen.

    La presencia de iluminacion controlada elimina som-bras en los granos, sin embargo tambien influye en loscolores de los granos originando brillo.

    La resolucion de la imagen debe brindar la capacidadde poder distinguir y resaltar texturas y colores en cadagrano, buscando la maxima nitidez en la imagen, paraello se utilizo una camara de 12 megapixeles.

    En la Figura 2 se puede apreciar una imagen de una muestrade granos de cafe tipo normal. En el Cuadro II se describeel total de granos de cafe por tipo de defecto colectado en labase de imagenes.

    B. Segmentacion de granos de cafe

    Es necesario para nuestro proceso de clasificacion dedefectos, aislar las zonas de interes en nuestra imagen, porello un proceso de segmentacion es necesario. Luego derecolectar la base de imagenes, cada imagen es procesadaa una escala de grises para su posterior binarizacion con elalgoritmo de Otsu [12], luego se obtiene los contornos de cadagrano de cafe en la imagen binarizada utilizando la tecnica deseguimiento de contornos [13].

    En la Figura 3 se muestra la imagen resultante de aplicarun algoritmo de umbralizacion con Otsu, posteriormente enFigura 4 se presenta el resultado de aplicar un algoritmode seguimiento de contornos a la imagen previa, finalmenteen la Figura 5 se muestra los sectores de interes en laimagen, cada sector representa un grano de cafe. Las imagenesresultantes forman parte de la base de datos de imagenes decafe, adicionalmente estas fueron clasificadas por un expertoen control de calidad, asegurando su pertenencia a cada clase.

    2014 XL Latin American Computing Conference (CLEI)

  • Figura 3. Imagen resultante de un proceso de binarizacion con Otsu.

    Figura 4. Resultado de aplicar un algoritmo de seguimiento de bordes laimagen binarizada

    Figura 5. Imagen con segmentos de interes seleccionados.

    C. Extraccion de caractersticas

    Esta es una etapa importante para nuestro modelo de clasi-ficacion de defectos, consiste en la representacion numerica deun objeto en una escena de imagen a un numero entero o real,en el Cuadro III se puede apreciar una taxonoma acerca delespacio de caractersticas extradas en imagenes segun [14].

    En este trabajo abordamos la extraccion de caractersticasutilizando un matriz de co-ocurrencia de niveles de gris ycolores (CGLCM) [15].

    1) Matriz de co-ocurrencia de niveles de gris: La matriz deco-ocurrencia de niveles de gris o mas conocido como GLCM

    Cuadro III. TAXONOMIA SOBRE ESPACIOS DE CARACTERISTICASEXTRAIDAS EN IMAGENES [14].

    Espacio Atributos

    BordesEstructura intrnseca menos sensi-ble a ruidos. Incluyen contornos ysuperficies.

    Caractersticassalientes

    Estructura intrnseca posicio-namiento preciso. Incluyeninterseccion de lineas, esquinas,puntos de alta curvatura.

    CaractersticasEstadsticas

    Usa toda la informacion presenteen la imagen, buenos resultadospara transformaciones rgidas, so-porte a sobre-posiciones. Incluyenmomentos invariantes, ejes princi-pales, tecnicas como descomposi-cion singular del valor y centroides.

    Caractersticasde Alto Nivel

    Utilizan relaciones y informacio-nes de alto nivel, buenos resulta-dos para emparejamiento local yimpreciso. Incluyen caractersticasestructurales y sinteticas y redessemanticas. Pueden crear tecnicasde firma para indexar imagenes

    (por su significado en ingles Gray Level Co-ocurrence Matrix)es una tecnica comun en el analisis estadstico de imagenes,muy usado para caracterizar la textura presente en ellas, esdecir es un metodo de extraccion caractersticas estadsticasde segundo orden o vector de histogramas. Fue propuesta en1973 por Haralick [16], a pesar de ya haber pasado variasdecadas, su estudio y aplicacion no pierde vigencia [17], [18],[19].Una matriz GLCM consta de L filas y L columnas, siendo Lel numero de niveles de gris que tiene la subimagen F a serprocesada. Por tal motivo esta subimagen es cuantizada de talforma que el numero de niveles de gris es reducida. Segun[20] un buen valor para L es 16.Generalmente multiples matrices GLCM son creadas sobre F ,con el objetivo de mejorar la caracterizacion de una textura,para lo cual se considera un conjunto combinaciones de(x,y) o (d, ). Sin embargo tambien se debe tener encuenta el tiempo de ejecucion, lo cual hace imprescindibleencontrar un subconjunto ideal (x,y) o (d, ) que no seamuy grande y que a su vez caracterize la textura contenida enF apropiadamente. La Figura 6 muestra una buena elecciondel conjunto de angulos u orientaciones = {0, 1, 2, . . .}y de distancias D = {d0, d1, d2, . . .}. Otros angulos quetambien podran haber sido incluidos son, 180, 225, etc, sinembargo estos angulos no agregan mayor especificacion de latextura debido a la relacion transpuesta que mantienen con losangulos anteriores, adicionalmente muchos trabajos los usanpara generar GLCM simetricos.

    2) Extraccion de caractersticas o medidas de textura delGLCM: Haralick en [16] introdujo 14 caractersticas que sepueden extraer de una matriz GLCM, en [20] se pueden veralgunas otras mas. Sin embargo muchas de esas caractersticasson redundantes, lo cual hace imprescindible que se haga unaseleccion previa de ellas, generalmente una buena eleccion estacompuesta de 3 a 5 medidas. Algunas medidas relacionadas alcontraste son:

    2014 XL Latin American Computing Conference (CLEI)

  • 13590

    45

    bc b bc bc b bc bc b bc

    b bc bc bc b bc bc bc b

    bc bc b bc b bc b bc bc

    bc bc bc b b b bc bc bc

    bc bc bc bc bc b b b b 0

    Figura 6. Cuatro angulos = {0, 45, 90, 135} y 4 distancias D ={1, 2, 3, 4}

    I Contraste (CON): su formula esta dada por:

    CON =

    N1

    i,j=0

    Pi,j(i j)2

    II Disimilaridad (DIS): su formula esta dada por:

    DIS =N1

    i,j=0

    Pi,j |i j|

    III Homogeneidad (HOM): su formula esta dada por:

    HOM =N1

    i,j=0

    Pi,j1 + (i j)2

    Las medidas que expresan el nivel de orden y regularidad enel cual estan los pxeles son:

    IV Segundo Momento Angular(ASM) & Energia: susformulas estan dadas por:

    ASM =N1

    i,j=0

    Pi,j2

    Energia =ASM

    ASM y Energia usan a Pi,j como peso. Los valores de ASM y Energia se incrementan

    proporcionalmente al grado de orden.V Probabilidad Maxima(MAX): su formula esta dada

    por:MAX = maxN1i,j=0(Pi,j)

    VII Simplemente se toma al mayor valor Pi,j dela ventana.

    VI Entropia(ENT): su formula esta dada por:

    ENT =

    N1

    i,j=0

    Pi,j( lnPi,j)

    Mide el grado de caos Alcanza su mayor valor cuando todos los

    valores Pi,j son iguales.

    Finalmente se tiene las medidas que utilizan estadstica des-criptiva:

    VII Promedio:

    i =N1

    i,j=0

    iPi,j

    j =

    N1

    i,j=0

    jPi,j

    VIII Varianza y Desviacion Estandar: Varianza

    2i =N1

    i,j=0

    Pi,j(i i)2

    2j =N1

    i,j=0

    Pi,j(j j)2

    Desviacion Estandari, j

    IX Correlacion:

    corr =

    N1

    i,j=0

    Pi,j(i i)(j j)

    (2i )(2j )

    3) CGLCM - matriz de co-ocurrencia para imagenes RGB:Es una tecnica de extraccion de caractersticas por textura ycolor para imagenes [15], en realidad es una modificacion delconocido Gray Level Co-ocurrence Matrix [16], difiere de supredecesor en que esta trabaja en los 3 canales de una imagenRGB y ademas:

    El pixel referente y vecino pueden pertenecer a unsolo canal o a canales distintos.

    En total se consideran 9 relaciones(RR,RG,RB,GR,GG,GB,BR,BG,BB), porcada relacion se crea una matriz de co-ocurrencia.

    La Figura 7 muestra la relacion RR y RG muy similaresal GLCM distinguiendose en que el pxel referente y elvecino pertenecen a distintos canales, lo cual brinda una mejorinformacion de la distribucion de pxeles en una imagen.

    i, j

    i-1, j-1

    i+1, j+1

    i-1, j i-1, j+1

    i, j-1 i, j+1

    i+1, j-1 i+1, j

    i-1, j-1

    i+1, j+1

    i-1, j i-1, j+1

    i, j+1

    i+1, j-1 i+1, j

    Canal R: Pixel Referente Canal G: Pixel Vecino

    i, j-1 i, j

    Figura 7. Relacion R-G: El pixel referente se toma en el canal R, y lospixeles referentes en el canal G.

    2014 XL Latin American Computing Conference (CLEI)

  • D. Clasificacion de defectos fsicos

    En un analisis de clasificacion se construyen modelos capa-ces de pronosticar la pertenencia de un objeto a una categora oclase sobre la base de las caractersticas del objeto. Existen dosaspectos particulares relacionados a la clasificacion [21], el pri-mero es, dada una imagen de entrada, decidir si ella pertenecea alguna clase especfica previamente definida. Esta categoraes usualmente conocida como clasificacion supervisada. Elsegundo aspecto, no hay un conocimiento previo de las clasespor lo que su utiliza algun criterio de similitud. Esta es unatarea compleja que generalmente requiere de un aprendizaje,siendo conocido como clasificacion no supervisada.

    1) Maquina de vectores soporte (SVM): Es un clasificadorlineal basado en el aprendizaje estadstico para resolver pro-blemas de clasificacion de patrones [22]. Los clasificadoreslineales se caracterizan porque se conoce, a priori, las clasesa las que pertenecen los nuevos individuos. No se trata de unaagrupacion por similitudes, sino que se tiene las clases biendefinidas [23].Dado un conjunto de ejemplos de entrenamiento (muestras)podemos etiquetar las clases y entrenar un SVM para cons-truir un modelo que prediga la clase de una nueva muestra.Intuitivamente, un SVM es un modelo que representa a lospuntos de muestra en el espacio, separando las clases por unespacio lo mas amplio posible. Cuando las nuevas muestrasse ponen en correspondencia en funcion de su proximidad,pueden ser clasificadas a una u otra clase, dependiendo de laproximidad a cada una.Mas formalmente, la idea principal de SVM es construirun hiperplano o conjuntos de hiperplanos en un espacio dedimensionalidad muy alta como superficie de decision, de talforma que, el margen de separacion entre ejemplos positivosy negativos sea el maximo [24]. Una buena separacion entrelas clases permitira una clasificacion correcta.Matematicamente, se parte de un conjunto de datos de entre-namiento xi, yi con:

    i = 1, ..., l, yi {1, 1} y xi Rd

    Entonces existe un hiperplano, como el de la Figura 8 quesepara los datos de etiquetas positivas y negativas, tales que:

    xi + b 1 i para yi = 1;xi + b 1 i para yi = 1 i i

    Donde es la normal al hiperplano y i son las variablesintroducidas por los errores de clasificacion en calidad deviolaciones del hiperplano, de manera que i sera la cota delerror de clasificacion. Una manera directa de anadir el costea la funcion objetivo es minimizar

    22 + Ci, siendo C

    la constante elegida correspondiente al inverso del valor de lapenalizacion de los errores. As, se tiene un caso de optimi-zacion convexa cuyo problema de optimizacion cuadratica esel numero de vectores de soporte. En general, SVM puede serclasificada de dos formas: lineales y no lineales.

    2) SVM lineales: Las SVM lineales son utilizadas paradefinir fronteras de separacion de datos que pertenecen ados clases, lidiando con los datos linealmente separables.Considera un conjunto de entrenamiento T con n muestrasde datos xi X y sus respectivas clases yi Y , siendo X el

    Figura 8. Representacion grafica de una maquina de vectores soporte [22]

    espacio de datos y Y = 1,+1. En este caso el conjunto dedatos T es linealmente separable por un clasificador, cuandoes posible separar los datos en funcion de sus clases -1 y +1por un hiperplano [25].

    3) SVM no lineales: Son una extension de las lineales.En algunas situaciones los datos de entrenamiento no puedenser divididos por un hiperplano, es decir, los datos no sonlinealmente separables. En la Figura 9 tenemos una muestra dedatos, representando dos clases, una por un crculo y otra porun triangulo. En este caso una frontera circular sera la formade separar las clases. Para solucionar este problema de datosno linealmente separables por una recta, el conjunto de entradaen un espacio original es mapeado para un nuevo espacio demayor dimension, denominado espacio de caractersticas. El

    Figura 9. Calculo de la distancia d entre los hiperplanos H1 y H2 [26]

    mapeo de los datos lineales para no lineales pueden sermuy complejo debido a la gran dimensionalidad del espaciode caractersticas . De esta forma, para realizar el calculo deproductos escalares (xi) (xj) entre los datos en el espaciode caractersticas son utilizadas las funciones kernels.Finalmente cabe destacar que los resultados obtenidos por losdiferentes kernels seran distintos segun el problema que sequiera resolver, en ese sentido es necesario realizar pruebasempricas utilizando uno u otro kernel para solucionar nuestroproblema, por otro lado tambien cada kernel tiene sus propiosparametros.

    V. PRUEBAS Y RESULTADOS

    En esta Seccion detallamos el conjunto de imagenes utiliza-do para la realizacion de pruebas del modelo de clasificacion,luego utilizamos el extractor de caractersticas CGLCM y lue-

    2014 XL Latin American Computing Conference (CLEI)

  • Cuadro IV. MATRIZ DE CONFUSION RESULTANTE PARA LA COMBINACION CONTRASTE, ENERGIA, ENTROPIA SOBRE LA BASE DE DATOS IRREGULAR

    Clase BRL BRS CER CON HON FLO INM MAV NEP NEG NOR PMC PER

    BrocadoL 310 12 0 9 1 3 20 0 1 0 57 0 1

    BrocadoS 18 237 4 7 1 1 5 4 12 1 17 6 0

    CerSeca 0 4 292 1 2 0 0 7 4 13 0 1 0

    Concha 33 27 1 78 0 8 3 6 3 1 31 5 0

    DxHongo 0 0 1 1 352 0 0 1 0 0 0 0 0

    Flotador 4 9 1 5 0 144 1 0 0 0 79 1 0

    Inmaduro 33 14 0 3 0 1 151 7 0 0 26 0 0

    MAVinagre 4 7 7 6 2 0 4 153 7 1 1 0 0

    NParcial 1 24 5 1 2 0 2 8 90 1 4 1 0

    Negro 0 2 11 0 1 0 0 1 5 124 0 0 0

    Normal 44 9 0 18 0 26 12 1 0 0 496 1 0

    PMCortado 5 23 6 4 0 6 1 0 2 0 9 20 0

    Pergamino 0 0 0 0 2 0 0 0 0 0 0 0 126

    Cuadro V. MATRIZ DE CONFUSION RESULTANTE PARA LA COMBINACION CONTRASTE, ENERGIA, ENTROPIA SOBRE LA BASE DE DATOS REGULAR.

    Clase BRL BRS CER CON HON FLO INM MAV NEP NEG NOR PER

    BrocadoL 108 1 0 3 0 0 8 0 0 0 6 0

    BrocadoS 2 114 1 0 0 0 3 6 0 0 0 0

    CerSeca 1 3 113 1 0 0 3 2 0 3 0 0

    Concha 5 2 0 106 1 4 1 2 0 0 5 0

    DxHongo 0 0 0 1 120 0 0 4 0 0 0 1

    Flotador 2 1 0 10 1 104 3 0 0 0 5 0

    Inmaduro 12 3 3 1 0 1 93 6 1 1 5 0

    MAVinagre 0 5 2 2 4 0 10 103 0 0 0 0

    NParcial 0 1 2 3 1 1 2 0 116 0 0 0

    Negro 0 1 1 0 0 0 1 0 0 123 0 0

    Normal 17 1 0 8 0 10 5 0 0 0 85 0

    Pergamino 0 0 0 0 0 0 0 0 0 0 0 126

    go las caractersticas extradas son ingresadas a una maquinade vectores soporte con kernel RBF.

    A. Base de imagenes

    Nuestra base de imagenes corresponde a los granos decafe segmentados correctamente y clasificados por un especia-lista de control de calidad de cafe certificado. Para este trabajose describen 2 bases de datos:

    Base de imagenes irregular: Posee un total de 3367imagenes, con un conjunto distinto para cada clase.La cantidad total para cada clase se puede apreciar enel Cuadro II

    Base de imagenes regular: Posee un total de 1512imagenes, distribuidas en 12 clases excluyendo laclase PMCortado, este conjunto tiene 126 imagenespor cada clase.

    Tambien para la validacion de resultados de clasificacion sedescriben las siguientes tecnicas:

    El metodo de extraccion de caractersticas utilizado esel CGLCM.

    Utilizamos SVM como metodo de clasificacion, uti-lizando un kernel RBF con C = 10, = 0.4 y = 0.00001, el resultado de estos parametros esproducto de varias configuraciones.

    El metodo de validacion sera realizado por medio deuna validacion cruzada donde kfold = 10.

    B. Pruebas utilizando base de datos irregular

    En este trabajo se empleo 4 tipos de descriptores, realizan-do dos tipos de combinaciones de la siguiente manera :

    1) Primera combinacion : Contraste, energia, correla-cion.

    2) Segunda combinacion : Contraste, energia, entropia.

    Se utilizaron distintos niveles L de cuantizacion en elCGLCM (L = 16, 32, 48, 64) y un total de 4 orientaciones = {0, 45, 90, 135}. Fueron analizados los resultados por

    2014 XL Latin American Computing Conference (CLEI)

  • cada combinacion y se obtuvo la mejor tasa de clasificacioncon un 76.42 % para la combinacion (2) , con un nivel decuantizacion L = 32, en el Cuadro IV se describe la matrizde confusion resultante y el cuadro Cuadro VI se presenta losresultados de precision, recall y F-measure.

    Cuadro VI. RESULTADOS DE PRECISION, RECALL Y F-MEASURE PARALA MATRIZ DE CONFUSION EN EL CUADRO IV

    Clase Recall Precision F-measure

    BrocadoL 74.88 68.58 71.59

    BrocadoS 76.01 64.40 69.73

    CerSeca 90.12 89.02 89.57

    Concha 39.80 29.93 34.16

    DxHongo 99.50 96.97 98.22

    Flotador 59.31 76.19 66.70

    Inmaduro 64.59 75.88 69.78

    MAVinagre 80.19 81.38 80.78

    NParcial 64.75 72.58 68.44

    Negro 86.11 87.94 87.02

    Normal 81.88 68.89 74.82

    PMCortado 26.74 57.14 36.43

    Pergamino 98.44 99.21 98.82

    El cuadro VI muestra resultados muy buenos para algunasclases (por ejemplo Pergamino y DxHongo) y resultados pocoalentadores para otras clases (como PMCortado y Concha).Esto puede deberse a varios factores:

    La clase Pergamino tiene un color amarillento carac-terstico y una textura bien diferenciada, y la claseDxHongo tambien presenta en conjunto un color ytextura muy diferente de las otras clases.

    Problema de clases no balanceadas, es decir algunasclases tienen muchos ejemplares, como es el caso dela clase Normal (607 imagenes) mientras que otrasclases tienen muy pocas, caso de la clase PMCortado(76 imagenes). Esto puede conllevar a que el clasi-ficador tenga preferencia por la clase que tenga masejemplares y no tome en cuenta sus caractersticas.Este problema esta bien documentado en la literatura,para mayor entendimiento y posibles soluciones ver[27], [28], [29].

    En terminos de textura y color la clase PMCortadoes muy parecida a la clase BrocadoS, por ese motivoexiste poca discriminacion entre ambas (ver tabla IV).Eso tambien explica porque medida Recall de la clasePMCortado es notoriamente menor que su Precision.

    La clase Concha se confunde con varias clases, debidoa que en la base de datos estos ejemplares son muyparecidos a la clase Normal en terminos de texturay color, sin embargo ademas algunos de ellos tienenotros defectos. Un enfoque que podra clasificar demejor manera este tipo de defecto sera utilizandocaractersticas de forma.

    En conclusion las clases PMCortado y Concha puedenser mejor diferenciados por su forma que por la texturay color.

    Existen tambien otras clases con baja taza de clasificacion,sin embargo esto podra deberse al mismo problema de las cla-

    ses no balanceadas mencionado anteriormente. Por tal motivoabordaremos esas clases en la siguiente subseccion.

    C. Pruebas utilizando base de datos regular

    Para este conjunto de imagenes se repite el modelo decombinaciones ejecutado con la base de datos irregular ycomo resultado se obtiene una tasa de exito de 86 % parala combinacion (2) (Contraste, Energa, Entropa) y nivel decuantizacion L = 32 y superando los resultados del modeloanterior. En el Cuadro V se describe la matriz de confusionresultante y en el Cuadro VII se presenta los resultadosprecision, recall y F-measure respectivos.

    Cuadro VII. RESULTADOS DE PRECISION, RECALL Y F-MEASUREPARA LA MATRIZ DE CONFUSION EN EL CUADRO V

    Clase Precision Recall F-measure

    BrocadoL 73.47 85.71 79.12

    BrocadoS 86.36 90.48 88.37

    CerSeca 92.62 89.68 91.13

    Concha 78.52 84.13 81.23

    DxHongo 94.49 95.24 94.86

    Flotador 86.67 82.54 84.55

    Inmaduro 72.09 73.81 72.94

    MAVinagre 83.74 81.75 82.73

    NParcial 99.15 92.06 95.47

    Negro 96.85 97.62 97.23

    Normal 80.19 67.46 73.28

    Pergamino 99.21 100.00 99.60

    En el cuadro VII se muestra en general una mejora en ladiscriminacion de clases con respecto al cuadro VI, lo cualayuda a probar lo importante de tener un banco de imagenes,con clases con un numero similar de ejemplares para la fasede entrenamiento.

    Las clases que notablemente mejoraron fueron las quellevan el nombre de Negro y NParcial, con porcentajes declasificacion casi perfectas. En el caso de NParcial en elcuadro VI se confunda mucho con la clase BrocadoS (quetambien mejoro notablemente), posiblemente debido a que estaultima tenia muchos mas ejemplares (problema de clases nobalanceadas), y una textura, si bien no igual, algo parecida.

    De igual forma las clases Concha, BrocadoL y Flotadormejoraron bastante, sin embargo aun falta mejorar un pocomas para llegar al porcentaje deseado.

    Las clases que han mejorado levemente con respectoal cuadro anterior fueron: Inmaduro, CerSeca, MAVinagrey Perganimo. La clase normal bajo ligeramente y lo quesorprendio un poco fue la cada en la taza de clasificacionde la clase DxHongo.

    VI. CONCLUSIONES Y TRABAJOS FUTUROS

    Nuestro trabajo describe la aplicacion de un extractorconocido como matrices de co-ocurrencia en escala de grisesy colores (CGLCM) junto a un clasificador de maquina devectores soporte (SVM) como un modelo prometedor parala clasificacion de defectos fsicos en granos de cafe verde.Las tasas de clasificacion resultantes nos demuestran queutilizando un conjunto de imagenes similar para cada clase los

    2014 XL Latin American Computing Conference (CLEI)

  • resultados son prometedores sin embargo no se considero laclase PMCortado para esta prueba, debido a su variacion enforma mas no en textura.El proceso de recoleccion de imagenes digitales de granos decafe verde estuvo fuertemente influenciado por el prototipode adquisicion de imagenes, en consecuencia un diseno espe-cializado de maquina esta siendo desarrollado. Tambien paraeste tipo de imagenes se elimino manualmente algunos granossegmentados en conjunto, debido a la falta de un separador y/obandeja especial que mantenga una separacion entre granos.En este trabajo se logro clasificar un conjunto de defectosmayor a los estudiados a la literatura en donde solo buscabanclasificar por color, aqu se realizo un estudio para la eva-luacion de granos que poseen caractersticas particulares entextura y forma.Los resultados descritos muestran que el modelo presentadopuede ser utilizado en aplicaciones reales de laboratorios decontrol de calidad de granos de cafe verde, sin embargo sepropone como trabajo futuro el desarrollo de un modelo declasificacion por etapas en donde caractersticas de granospor forma, luego por color y finalmente por textura, en eseorden, sean seleccionadas; de este modo creemos que la tasade clasificacion superara la resultante en este trabajo.

    AGRADECIMIENTOS

    Los autores quisieran agradecer a CECOVASA (Centralde Cooperativas Agrarias Cafetaleras de los Valles de Sandia)quienes brindaron el soporte y conocimiento necesario para eldesarrollo de la investigacion. Este trabajo ha sido parcialmentesubvencionado por los Fondos para la Innovacion, Cienciay Tecnologa (FINCyT-Peru) mediante contrato 087-FINCyT-FIDECOM-PIPEA-2011 en convenio con la empresa y laUniversidad Nacional de San Agustn.

    REFERENCIAS[1] Website, Specialty coffe asociation of america, Setiembre 2012.

    [Online]. Available: http://www.scaa.org/[2] L. da Fontoura Costa and R. Cesar, Shape analysis and classification:

    theory and practice. CRC, 2001.[3] H. Cheng, X. Jiang, Y. Sun, and J. Wang, Color image segmentation:

    advances and prospects, Pattern recognition, vol. 34, no. 12, pp. 22592281, 2001.

    [4] P. Hicks, Postharvest processing and quality assurance for specia-lity/organic coffee products, The first Asian regional round-table onsustainable, organic and speciality coffee production, processing andmarketing, pp. 2628, 2001.

    [5] N. Montes, G. Osorio, F. Prieto, and F. Angulo, La vision artificialaplicada al proceso de produccion del cafe, Dyna, vol. 133, pp. 4149, 2001.

    [6] S. Means, Segmentacion de frutos de cafe mediante metodos decrecimiento de regiones, Rev. Fac. Nal. Agr. Medelln vol, vol. 59,no. 1, 2006.

    [7] Z. Sandoval and F. Prieto Ortiz, Caracterizacion de cafe cerezaempleando tecnicas de vision artificial, Rev. Fac. Nal. Agr. Medelln,pp. 41054127, 2007.

    [8] M. Habtamu, Image analysis for ethiopian coffee classification, 2008.[9] A. Francaa, A. Craigb, and L. Oliveiraa, Separation between high and

    low quality coffees by ftir-atr, 2009.[10] U. Ahmad, K. Seminar, D. Soedibyo, and I. Subrata, The development

    of automatic coffee sorting system based on image processing andartificial neural network, 2010.

    [11] F. Faridah, Gea O. F. Parikesit, Coffee bean grade determination basedon image parameter, TELKOMNIKA (Telecommunication, Computing,Electronics and Control), vol. 9, pp. 547 554, 2011.

    [12] N. Otsu, A threshold selection method from gray-level histograms,Systems, Man and Cybernetics, IEEE Transactions on, vol. 9, no. 1,pp. 6266, Jan 1979.

    [13] S. Suzuki et al., Topological structural analysis of digitized binaryimages by border following, Computer Vision, Graphics, and ImageProcessing, vol. 30, no. 1, pp. 3246, 1985.

    [14] L. Brown, A survey of image registration techniques, ComputingSurveys, vol. 24, pp. 116, 1992.

    [15] M. BENCO and R. Hudec, Novel method for color textures featuresextraction based on glcm, Radioengineering, vol. 4, no. 16, pp. 6467,2007.

    [16] R. M. Haralick, K. Shanmugam, and I. Dinstein, Textural featuresfor image classification, IEEE Transactions on Systems, Man, andCybernetics, vol. 3, no. 6, pp. 610621, Nov. 1973.

    [17] E. Vimina and K. Poulose Jacob, Image retrieval using colour andtexture features of regions of interest, in Information Retrieval &Knowledge Management (CAMP), 2012 International Conference on.IEEE, 2012, pp. 240243.

    [18] X. Sun, J. Wang, R. Chen, M. F. She, and L. Kong, Multi-scale localpattern co-occurrence matrix for textural image classification, in NeuralNetworks (IJCNN), The 2012 International Joint Conference on. IEEE,2012, pp. 17.

    [19] M. YousefHussien, K. Garvin, D. Dalecki, E. Saber, and M. Helgue-ra, Three-dimensional volume analysis of vasculature in engineeredtissues, in IS&T/SPIE Electronic Imaging. International Society forOptics and Photonics, 2013, pp. 86 540C86 540C.

    [20] F. Albregtsen et al., Statistical texture measures computed from graylevel coocurrence matrices, Image Processing Laboratory, Departmentof Informatics, University of Oslo, 1995.

    [21] M. Tuceryan and A. K. Jain, Handbook of pattern recognition &computer vision, in Handbook of pattern recognition & computervision, C. H. Chen, L. F. Pau, and P. S. P. Wang, Eds. River Edge, NJ,USA: World Scientific Publishing Co., Inc., 1998, ch. Texture analysis,pp. 235276.

    [22] S. Haykin, Neural Networks: A Comprehensive Foundation, 2nd ed.Upper Saddle River, NJ, USA: Prentice Hall PTR, 1998.

    [23] R. Barr, J. Haas, and R. R., Jist: An efficient approach to simulationusing virtual machines, in Software: Practice and Experience, 2003.

    [24] A. Ben-Hur, D. Horn, H. Siegelmann, and V. Vapnik, Support vectorclustering, Machine Learning Research, vol. 2, pp. 125137, 2000.

    [25] B. Scholkopf and A. J. Smola, Learning with Kernels: Support VectorMachines, Regularization, Optimization, and Beyond. Cambridge, MA,USA: MIT Press, 2001.

    [26] K. Muller, S. Mika, G. Ratsch, K. Tsuda, and B. Scholkopf, Anintroduction to kernel-based learning algorithms, Neural Networks,IEEE Transactions on, vol. 12, no. 2, pp. 181201, 2001.

    [27] F. Provost, Machine learning from imbalanced data sets 101, inProceedings of the AAAI2000 workshop on imbalanced data sets, 2000,pp. 13.

    [28] H. He and E. A. Garcia, Learning from imbalanced data, Knowledgeand Data Engineering, IEEE Transactions on, vol. 21, no. 9, pp. 12631284, 2009.

    [29] A. Ben-Hur and J. Weston, A users guide to support vector machines,in Data mining techniques for the life sciences. Springer, 2010, pp.223239.

    2014 XL Latin American Computing Conference (CLEI)