research on algorithms of data mining under cloud computing environment by fei long kevin flores...

13
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

Upload: claudia-soler-roldan

Post on 24-Jan-2016

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386INF-252

Page 2: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

INTRODUCCIÓN

• Fei Long, el autor del articulo “Research on algorithms of data mining under cloud computing environment” habla sobre la mejora de la entrada de Datos utilizando un algoritmo llamado MRApriori, en vez de utilizar el algirtmo original Apriori para el manejo de los datos.

Page 3: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

QUE ES DATA MINING • Es el proceso de encontrar correlaciones o patrones entre

campos de información en banco de datos relaciones.

•Consiste de:

• Extraer, transformar y cargar datos

• Almacenar y manejar datos

• Proveer acceso

• Analizar los datos

• Presentar datos en un formato útil y fácil de entender

Page 4: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

QUE ES MAPREDUCE • Es un modelo de programación para el procesamiento de

datos.

• Simplifica la implementación de muchas aplicaciones de datos mediante la eliminación de tareas.

• Simplifica el procesamiento de los datos

• Tolerancia a fallos

• Alto nivel

• Ayuda al mantenimiento eficiente del sistema.

Page 5: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

EJEMPLO: MAPREDUCE

Page 6: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

QUE ES CLOUD COMPUTING• Cloud computing son servicios y programas localizados en el

internet que incluyen:

• Virtualización

• Servicios de Paginas web

• Service oriented arquitecture

• Web 2.0

• Web mash up

Page 7: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

GOOGLE HADOOP

• Esta escrito en Java

• Conjunto de libretos de instalaciones y librerías de programas que están optimizadas para la infraestructura de google.

• El usuario o la compañía tiene un ambiente de alta calidad para poder procesar datos.

•MapReduce puede ser ejecutado desde el Google Hadoop sin necesitar copiar datos o procesos al local disk.

Page 8: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

ALGORITMO MRAPRIORI

•Utiliza componentes de Google Hadoop para hacer ejecuciones de trabajo y almacenar información

• El algoritmo MRApriori consiste de:

• Generar todos los conjuntos (itemsets) frecuentes

• Generar una regla de asociación a base de los conjuntos (itemsets) frecuentes.

• Puede procesar grandes cantidades de datos sin reducir su tiempo de ejecución.

Page 9: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

MRAPRIORI ALGORITHM

Page 10: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

INFORMACIÓN ADICIONAL PARA MRAPRIORI

•Reglas de asociación – declaraciones if/then que ayudan a demostrar la relación entre datos en un banco de datos transaccional, relacional o de cualquier otro tipo.

• Los conjuntos (itemsets) son conjuntos de información que pueden aparecer en diferentes tablas múltiples veces que a su vez es un subconjunto de otro.

Page 11: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

RESULTADO DEL MRAPRIORI

Page 12: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

CONCLUSION

• El algoritmo original Apriori hace lo mismo que el MRApriori, pero la diferencia esta en los componentes que el MRApriori utiliza para manejar los datos.

• Los resultados del experimento comprobó que el algoritmo propuesto por Fei Long es mas rápido y eficiente al ejecutar la misma o mayor cantidad de trabajos ejecutados que el código original.

Page 13: RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ 201-30-5386 INF-252

REFERENCIAS

• Long, F. Research on algorithms of data mining under cloud computing environment. Journal of Chemical and Pharmaceutical Research, 2014, 6(7):1152-1157