RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386INF-252
INTRODUCCIÓN
• Fei Long, el autor del articulo “Research on algorithms of data mining under cloud computing environment” habla sobre la mejora de la entrada de Datos utilizando un algoritmo llamado MRApriori, en vez de utilizar el algirtmo original Apriori para el manejo de los datos.
QUE ES DATA MINING • Es el proceso de encontrar correlaciones o patrones entre
campos de información en banco de datos relaciones.
•Consiste de:
• Extraer, transformar y cargar datos
• Almacenar y manejar datos
• Proveer acceso
• Analizar los datos
• Presentar datos en un formato útil y fácil de entender
QUE ES MAPREDUCE • Es un modelo de programación para el procesamiento de
datos.
• Simplifica la implementación de muchas aplicaciones de datos mediante la eliminación de tareas.
• Simplifica el procesamiento de los datos
• Tolerancia a fallos
• Alto nivel
• Ayuda al mantenimiento eficiente del sistema.
EJEMPLO: MAPREDUCE
QUE ES CLOUD COMPUTING• Cloud computing son servicios y programas localizados en el
internet que incluyen:
• Virtualización
• Servicios de Paginas web
• Service oriented arquitecture
• Web 2.0
• Web mash up
GOOGLE HADOOP
• Esta escrito en Java
• Conjunto de libretos de instalaciones y librerías de programas que están optimizadas para la infraestructura de google.
• El usuario o la compañía tiene un ambiente de alta calidad para poder procesar datos.
•MapReduce puede ser ejecutado desde el Google Hadoop sin necesitar copiar datos o procesos al local disk.
ALGORITMO MRAPRIORI
•Utiliza componentes de Google Hadoop para hacer ejecuciones de trabajo y almacenar información
• El algoritmo MRApriori consiste de:
• Generar todos los conjuntos (itemsets) frecuentes
• Generar una regla de asociación a base de los conjuntos (itemsets) frecuentes.
• Puede procesar grandes cantidades de datos sin reducir su tiempo de ejecución.
MRAPRIORI ALGORITHM
INFORMACIÓN ADICIONAL PARA MRAPRIORI
•Reglas de asociación – declaraciones if/then que ayudan a demostrar la relación entre datos en un banco de datos transaccional, relacional o de cualquier otro tipo.
• Los conjuntos (itemsets) son conjuntos de información que pueden aparecer en diferentes tablas múltiples veces que a su vez es un subconjunto de otro.
RESULTADO DEL MRAPRIORI
CONCLUSION
• El algoritmo original Apriori hace lo mismo que el MRApriori, pero la diferencia esta en los componentes que el MRApriori utiliza para manejar los datos.
• Los resultados del experimento comprobó que el algoritmo propuesto por Fei Long es mas rápido y eficiente al ejecutar la misma o mayor cantidad de trabajos ejecutados que el código original.
REFERENCIAS
• Long, F. Research on algorithms of data mining under cloud computing environment. Journal of Chemical and Pharmaceutical Research, 2014, 6(7):1152-1157
Top Related