Aplicacion de Algoritmos Geneticos

6
Una Aplicación de los Algoritmos Genéticos en la Discriminación Aurora Montano Rivas Mario Cantú Sifuentes Departamento de Estadística y Cálculo, Universidad Autónoma Agraria Antonio Narro mcansi@uaaan. mx Nidia Hernández Pérez In memoriam Abstract. An application of genetic algorithms in discrimination. In this work a technique based on genetic algorithms is presented. Such a technique produces better discriminant functions parameters estimators, in the sense that the clasiffication errors are reduced. The technique is applied to real data, and the results are compared with the ones produced by means of the clasical Fisher discriminant analysis. Key Words: Discrete Optimization, Heuristic Algorithms. Resumen. En este trabajo se presenta una técnica basada en algoritmos genéticos la cual produce mejores estimadores de los parámetros de funciones discriminantes que los encontrados por métodos tradicionales; en el sentido de que con la técnica propuesta se disminuyen los errores de clasificación. Se aplica la técnica a datos reales y los resultados se comparan con los que produce el análisis discriminante clásico de Fisher. Palabras clave: Optimización discreta, Algorítmos Heurísticos. Introducción El análisis discriminante forma parte del conjunto de técnicas estadísticas diseñadas para resolver el problema de clasificación. Se caracteriza por estudiar la relación entre una variable categórica dependiente (el grupo de clasificación) y un conjunto de variables reales (posiblemente vectoriales) independientes. Estas describen a cada uno de los individuos a clasificar. A través de esta técnica, se construyen reglas de decisión que permiten discriminar o separar grupos mediante funciones de las variables observadas, minimizando la probabilidad de clasificación errónea, o bien maximizandola si la clasificación es correcta. Las reglas más usuales se construyen a partir de un modelo probabilístico, y de muestras de entrenamiento. Por otra parte, los algoritmos genéticos son métodos adaptativos heurísticos que pueden usarse para resolver problemas de búsqueda y de optimización sobre el espacio de soluciones posibles (soluciones factibles). Esta técnica está inspirada en los mecanismos de la genética y de la selección natural. Dada una función objetivo, los algoritmos genéticos construyen el espacio de soluciones usando operadores genéticos, entre ellos: selección, cruzamiento, y mutación. En cada etapa de la búsqueda, sobreviven las soluciones subóptimas. En este trabajo se presenta una aplicación de los algoritmos genéticos a las funciones discriminantes que conforman la población inicial, las cuales se generan realizando el análisis discriminante de cada muestra obtenida por la técnica de remuestreo que se aplicó a una muestra de entrenamiento. Posteriormente, las funciones se evalúan para seleccionar las mejores y, a través de la aplicación de operadores genéticos, llegar a obtener una o un grupo de funciones que discriminen mejor que la proporcionada por el método de Fisher. Para comprender adecuadamente el desarrollo de la aplicación de la técnica propuesta, se consideró conveniente presentar una breve descripción de los Revista Agraria - Nueva Epoca - Año I. Vol 1. No1 42

description

Aplicación practica de Algoritmos geneticos

Transcript of Aplicacion de Algoritmos Geneticos

Una Aplicacin de los Algoritmos Genticos en la Discriminacin Aurora Montano Rivas Mario Cant Sifuentes Departamento de Estadstica y Clculo, Universidad Autnoma Agraria Antonio Narro mcansi@uaaan. mx Nidia HernndezPrez In memoriam Abstract. An applicationof geneticalgorithms indiscrimination. In this work a technique basedongenetic algorithmsis presented.Such a techniqueproducesbetter discriminantfunctionsparametersestimators, inthesensethattheclasifficationerrorsarereduced.Thetechniqueisappliedtorealdata,andthe resultsarecomparedwiththeonesproducedbymeansoftheclasicalFisherdiscriminantanalysis. KeyWords:DiscreteOptimization,Heuristic Algorithms. Resumen.Enestetrabajosepresentaunatcnicabasadaenalgoritmosgenticoslacualproducemejores estimadoresde los parmetros de funciones discriminantesque los encontradospormtodos tradicionales; en el sentido deque con la tcnicapropuestasedisminuyen loserroresdeclasificacin. Se aplicala tcnica adatos realesy losresultadosse comparan con losqueproduceelanlisis discriminanteclsico deFisher. Palabrasclave:Optimizacindiscreta,AlgortmosHeursticos. Introduccin El anlisis discriminante forma parte delconjunto de tcnicas estadsticas diseadas pararesolver el problema declasificacin. Secaracterizaporestudiar larelacin entreunavariablecategricadependiente(elgrupode clasificacin)yunconjuntodevariablesreales (posiblementevectoriales)independientes.Estas describen a cada uno de los individuos a clasificar. A travs deestatcnica,seconstruyenreglasdedecisinque permiten discriminar o separar grupos mediante funciones de las variables observadas, minimizando la probabilidad declasificacinerrnea,obienmaximizandolasila clasificacinescorrecta.Lasreglasmsusualesse construyenapartirdeunmodeloprobabilstico,yde muestras deentrenamiento. Porotraparte,losalgoritmos genticossonmtodos adaptativos heursticosquepuedenusarsepararesolver problemas de bsqueda y de optimizacin sobre el espacio de soluciones posibles (soluciones factibles). Esta tcnica estinspirada enlosmecanismos delagentica y dela seleccinnatural.Dadaunafuncinobjetivo,los algoritmos genticos construyen el espacio desoluciones usandooperadoresgenticos,entreellos:seleccin, cruzamiento, y mutacin. En cada etapa de la bsqueda, sobreviven lassoluciones subptimas. Enestetrabajosepresentaunaaplicacindelos algoritmosgenticosalasfuncionesdiscriminantesque conformanlapoblacininicial,lascualessegeneran realizandoelanlisisdiscriminantedecadamuestra obtenida por la tcnica de remuestreo que se aplic a una muestra de entrenamiento. Posteriormente, lasfunciones se evalan paraseleccionar las mejoresy,a travs dela aplicacin deoperadoresgenticos, llegaraobteneruna oungrupodefuncionesquediscriminenmejorquela proporcionada por el mtodo deFisher. Paracomprenderadecuadamente eldesarrollodela aplicacindelatcnicapropuesta,seconsider convenientepresentarunabrevedescripcindelos Revista Agraria-Nueva Epoca- Ao I. Vol 1. No142 mtodosempleados: elanlisis discriminante,losalgoritmosgenticos,losmtodosdeseleccin ylosoperadores genticos; tambin se describe la aplicacin, seguida delas conclusiones y lasreferencias. E1Anlisis Discriminante Bajo el supuesto deg grupos o poblacionesII, , i = 1, . ..,g mutuamente excluyentes, con probabilidades apriori asociadas a cada poblacin comoa, > Oya,= 1 y vector de variables aleatoriasX= (X,,..., Xp), el objetivo quesepersigueesobtenerunconjuntodeg( g- 1)/2funcioneslinealesoseudonlineales delvectorx tal,que maximice la separcin entre los grupos y permita minimizar laprobabilidad de clasificacin errnea en cada grupo. Bajo los supuestos de queg = 2y de que la separacin entre los grupos es lineal o pseudolineal, un regla de decisin para este caso da por: La unidaducon vector de variables observadasx clasifica enII,si La unidaducon vector de variables observadasx clasifica enII,si siendoa E RP+'tal, que minimice la probabilidad de clasificacin errnea, esdecir, Dada unamuestra deentrenamientox detamaoN x pconN = E n , ,j = 1,2ylaregladeclasificacin anterior, se construye la regla de clasificacin emprica a partir de la funcin discriminante estimadaal(X)x al ser al(X) una estimacin del vector de parmetrosatal, que minimice la estimacin de la probabilidad de clasificacin errnea condicionada a la muestra de entrenamiento, esdecir,la seleccin delvectoradebe cumplir: (a* 1X) = minatRVlx(a, B(al(x)x < O1x E n,,X) + a, B(al(x)x > O1x E n2,x)) con &al(x)x > O1x E II,, X) = #(x E 112: al(X)x < O)/n, AlgoritmosGenticos Los algoritmos genticos buscan el mejor resultado a travs del uso del espacio de posibles soluciones del problema considerado. Estos comienzan conunapoblacininicial o poblacin cero, querepresentaun conjunto deposiblessoluciones generadas aleatoriamente. Cada solucin del problema planteado representa un cromosoma. Generalmente este conjunto discreto de soluciones esde tamao de 20 a 100cromosomas. Tomando en consideracin el proceso evolutivo deDanvin, la estrategia de estos algoritmos esseleccionar, de la poblacin inicial, los mejores cromosomas padres como candidatos a producir mejores hijos en la nueva generacin. Se repite este proceso hasta localizar una solucin ptima o subptima. Seleccindemejorescromosomas Laideaesescogerlosmejorescromosomas osoluciones enunapoblacin quesevaareproducirparaformar generaciones sucesivas; esta seleccin se realiza aleatoriamente, y se asigna una probabilidad P, a cada elementoj , perteneciente a la poblacin en cuestin y se toma como base el valor de ajuste. Tambin se generan nmeros aleatorios con distribucin uniforme, uno para cada elemento de la poblacin, y se comparan contra la probabilidad acumulada Revista Agraria-Nueva Epoca- Ao I. Vol 1. No143Entonces, la solucin o cromosomaise selecciona para integrar la nueva poblacin, si c,-, < U(0, l)< c, . Operadoresgenticos:cruzamientoymutacin Losoperadoresgenticosproporcionanlos mecanismosdebsquedabsicosdelosalgoritmos genticos; los cuales se usan para crear nuevas soluciones, basadas en el conjunto de las mejores soluciones escogidas previamente poralgn mtodo deseleccin. Bsicamenteseusandosoperadoresparavalores reales, lo cuales son: cruzamiento y mutacin. Operador cruzamiento:seleccionadossoluciones(cromosomas progenitores)yproducedosnuevassoluciones(nuevos cromosomas). Operador mutuacin: en esteoperador un gene seselecciona aleatoriamente de una cadena, elcual sufre una alteracin y se produce una nueva solucin nica. Laaplicacindelosoperadoresdependedela estructura de los cromosomas, si son discretos o continuos. ParamayorinformacinpuedeverseenMichalewicz (1994)yHouck,etal.,(1998).Enelproblemaquese presentaseutilizaronlossiguientesoperadores: Cruzamiento aritmtico: seanS, yS,dossoluciones o cromosomas, entoncesalseleccionaraleatoriamente un valorrde una variable aleatoria con distribucin U(0, l), se logra la generacin de dos nuevas soluciones o nuevos cromosomas alconsiderarlascombinacionesconvexas entre los dos, es decir: Deestaformasegenerandosnuevassoluciones. Mutuacin uniforme: seaS( i )la matriz de tamaoS x p cuyas filas representan s posibles soluciones del problema en la iteraciniconpcomponentes, y a, = min S,,, 1 b, = max S,,, 1 dondej =l ,. . . , p,es decir, el lmite inferior y superior del conjunto de cada columna dela matrizS( i )delproblema. Seleccionando aleatoriamente elvalorkentre 1 ypy unvalordela variable aleatoriaU( ak, bk)condistribucin uniforme en el intervalo(ak, bk), se realiza la siguiente mutuacin: S,,,,, = U( ak, bk 1,sij= k Aplicacin Para ilustrar el comportamiento de esta tcnica, se us labasededatosdeIRISdadaporFisher(1936).SE consideransolamenteconespecies(Versicolory Virginica), con un total de 50 casos y cuatro variables: X1 =longituddelspalo X2 =ancho del spalo X3 = longitud delptalo X4 =ancho delptalo. Losclculosdelprocedimientopropuesto anteriormente, se realizaron con el apoyo de los paquetes SPLUS 2000 y MATLAB 12 . La solucin obtenida bajo los supuestos de normalidad ydehomogenidaddelasmatricesdecovarianza delas dos especies, y considerando la muestra de entrenamiento detamao100, seobtuvocomovectoral ( X)de coeficentesdelafuncindiscriminante (3,5563,55786,-6.97013, -l2386,16.663), conuna estimacin del error de clasifiacin de0.03. Despusdeaplicarlastcnicasderemuestreoala muestra original,se generaron12muestras aleatorias, a las cuales se les aplic la discriminacin bajo los mismos supuestos. Lassoluciones dadas delvectoral ( X)para cada muestra aparecen en elCuadro 1, que muestran los cromosomas progenitoreso poblacininicial. Laltima columna delcuadro indica elerror estimado,resultante dereclasificar lamuestra deentrenamiento originalcon las 12soluciones resultantes. Asignando una probabilidad frecuencia1 a cada error y al generar 12 nmeros aleatorios con distribucin U(0, l), ordenadosdemenoramayor,seprocedeautilizarla tcnicadeseleccin.LosCuadros2y3muestranlos resultadosdelaprimeraseleccin.A continuacinse realizelprimercrucearitmtico(Cuadro4)yse obtuvieron las nuevas combinaciones o nuevas soluciones. Pararealizarlaprimeramutuacinuniforme,se seleccion unnmero aleatorio entre 1 y 5, en este caso resultj= 4ysegenerunnmeroaleatorio(gene) entre los lmites superior e inferior del vector de soluciones para la columna 4. El valor obtenido fue 13.2639, el cual se sustituy en la columna correspondiente para cada uno de los cromosomas. En el Cuadro 5 se dan los resultados obtenidos. LosCuadros6,7y8muestranlosresultadosdel segundocruce.Pararealizarlasegundamutacinse seleccion un nmero aleatorio entre 1 y 5, sin considerar el4,queyacorrespondealacolumnamutada Revista Agraria-Nueva Epoca- Ao I. Vol 1. No144 anteriormente. En este caso, la nueva columna a mutar es j= 5 y el valor aleatorio elegido entre 15.0474 y 15.213 8 es 15.1394. En elCuadro 9 se dan los resultados. Alrepetir el algoritmo anterior, se consideraron cinco iteraciones que se muestran en los Cuadros 10, 11, 12, 13, 14,15, 16,17 y 18 que se presentan en el Anexo. Puedeobservarsecomolaestimacindelerrorde clasificacinvaestabilizndosea0.02.Unasolucin subpbtimadelproblema dediscriminacin original es dada por la funcin discriminante lineal: 6.3981X1+ 5.0345X2 - 9.7445X3 - 13.2639X4 +15.1394 conuna estimacin del error de clasificacin de0.02. Conclusiones Enestetrabajosehamostradoquelatcnicade algoritmos geneticos puede usarse para refinar los mtodos clsicos dediscriminacin. Esta afirmacin es soportada porelhecho de que elmtodo de clasificacin deFisher aplicado alconjunto de datos deIRIS, tiene un errorde clasificacion de0.03; alaplicaralgoritmosgenticosel mtodosemejoraalobtenerseunerrordeclasificacin de0 .02 o menor. LiteraturaCitada Barbro,B., Teija,L. yKaisa,S. 1996. Bankruptcy PredictorsUsingDiscriminantAnalysis,Logit Analysis, and Genetic Algorithms. Turku, Centre for ComputerScience,Finland.TechnicalReport No.40. FisherR. A.1936.TheUseofMultipleMeasure- mentsinTaxonomicProblems.AnnualEugenics 7: 179-188. Houck,C. R. JoinesJ.A., y KayM. G.19%. A ge- netic Algorithm for Function Optimization: A Matlab Implementation, NCSU-IE, Technical Report 95-09. MATLAB R. 12. The Math Works Company, Natick, Massachusetts. Michalewicz,Z1994.GeneticAlgorithms+Data Structures=EvolutionProgram.SeriesSpringer- Verlag,New York,USA. Mitsuru 0. 2000. New Method Discriminant Analy- sisUtilizingGenetic Algorithm.FujtsuLimited4- 1 - 1,Kamikodanaka,Nakahara-ku,Kawasaki,2 11 - 8588. S-PL US2000,DataanalysisProductsDivision, MathSoft, Seattle, WA. ANEXO Cuadro 1. Cromosomas Progenitores Sepa1SepawPetalPetawConstantError Cuadro 2. Primera Seleccin de Cromosomas Progenitores ErrorProb.Acum.(cl- 1 < U(0, l )< cl) Cuadro 3.Combinaciones Seleccionadas Sepa1SepawPetalPetawConstantError Revista Agraria-Nueva Epoca- Ao I. Vol 1. No145Cuadro 4. Resulta del Primer Cruce Aritmtico Sepa1SepawPetalPetawConstantError Cuadro 5. Primera Mutuacin Uniforme Sepa1SepawPetalPetawConstantError Cuadro 6. Primera Seleccin ErrorProb.Acum.(cl - 1 < U(0,l) < cl) .12.083 (0