introducción a bigdata - up - 2015

71
Introducción a BigData Universidad de Palermo 2015

Upload: gabriel-eisbruch

Post on 14-Apr-2017

802 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Introducción a BigData - up - 2015

Introducción a BigDataUniversidad de Palermo 2015

Page 2: Introducción a BigData - up - 2015

Gabriel EisbruchDeveloper | Arquitecto | Data Nerd

[email protected]@geisbruch

Page 3: Introducción a BigData - up - 2015

Que es BigData?

Page 4: Introducción a BigData - up - 2015

Page 5: Introducción a BigData - up - 2015

“Conjunto de herramientas destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos y de tipos variados

Page 6: Introducción a BigData - up - 2015

Entonces…que son Grandes Volúmenes de Datos?

Page 7: Introducción a BigData - up - 2015

~455 PBEn todo su potencial

40000 NodosCluster mas grande 4500

Page 8: Introducción a BigData - up - 2015

113 Veces

Page 9: Introducción a BigData - up - 2015

30+ PBSon 61400 notebooks

2000+ Nodos

Page 10: Introducción a BigData - up - 2015

3.1 PBSon 100000 IPhones

180 Nodos

~ 4300 Cpu’s

Page 11: Introducción a BigData - up - 2015

Algo de Historia

Page 12: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Page 13: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Internet Boom1998

Page 14: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Internet Boom1998

Google Map Reduce2004

Page 15: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Internet Boom1998

Google Map Reduce2004

Hadoop2005

Page 16: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Internet Boom1998

Google Map Reduce2004

Hadoop2005

Netflix Prize2009

Page 17: Introducción a BigData - up - 2015

Algo de Historia

Aparición de Internet1995

Internet Boom1998

Google Map Reduce2004

Hadoop2005

Netflix Prize2009

Nuevos paradigmas e IOT2011 -> Hoy

Page 18: Introducción a BigData - up - 2015

Cuales fueron los FACTORES que ayudaron a este crecimiento?

Page 19: Introducción a BigData - up - 2015

Cuales fueron los FACTORES que ayudaron a este crecimiento?

Incremento de Usuarios e información

Al aumentar la cantidad de usuarios de internet y la cantidad de acciones que estos realizan sobre la web, hubo una explosión de información disponible que no se estaba capitalizando

Page 20: Introducción a BigData - up - 2015

Cuales fueron los FACTORES que ayudaron a este crecimiento?

Incremento de Usuarios e información

Al aumentar la cantidad de usuarios de internet y la cantidad de acciones que estos realizan sobre la web, hubo una explosión de información disponible que no se estaba capitalizando

Disminución de costos

Los costos de la tecnología tienden usualmente a bajar, en particular la disminución de costos de almacenamiento y procesamiento impulsó a BigData

Page 21: Introducción a BigData - up - 2015

Cuales fueron los FACTORES que ayudaron a este crecimiento?

Page 22: Introducción a BigData - up - 2015

Cuales fueron los FACTORES que ayudaron a este crecimiento?

YearAverage Cost Per Gigabyte

2014 $0.03

2013 $0.05

2010 $0.09

2005 $1.24

2000 $11.00

Page 23: Introducción a BigData - up - 2015

Porque se volvio esto tan relevante para las Empresas?

Page 24: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Page 25: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Predicción

El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones

Page 26: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Predicción

El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones

Nuevos Mercados

Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas

Page 27: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Predicción

El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones

Nuevos Mercados

Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas

Personalización

Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa

Page 28: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Predicción

El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones

Nuevos Mercados

Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas

Personalización

Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa

Mejor comprensión del negocio

Entender el negocio de la compañía con la mayor claridad posible es una clara ventaja competitiva de las organizaciones

Page 29: Introducción a BigData - up - 2015

Experiencia de usuario

Entender mejor al usuario ayudar a mejorar las experiencias de estos en las empresas

Porque se volvio esto tan relevante para las Empresas?

Predicción

El aumento de los volúmenes de datos y procesamientos ayuda a las empresas a poder hacer más y mejores predicciones

Nuevos Mercados

Bigdata a generado nuevas oportunidades y con esto nuevos mercados para empresas existentes o nuevas

Personalización

Ahora se puede lograr personalizar mucho más los productos basado en la experiencia de los clientes de una empresa

Mejor comprensión del negocio

Entender el negocio de la compañía con la mayor claridad posible es una clara ventaja competitiva de las organizaciones

Surgimiento de “Data Lakes”

Las empresas ahora pueden guardar información que a priori no es importante para que esté disponible en futuros procesamientos

Page 30: Introducción a BigData - up - 2015

Porque se volvio esto tan relevante para las Empresas?

Page 31: Introducción a BigData - up - 2015

Porque se volvio esto tan relevante para las Empresas?

Page 32: Introducción a BigData - up - 2015

Porque se volvio esto tan relevante para las Empresas?

Page 33: Introducción a BigData - up - 2015

Porque se volvio esto tan relevante para las Empresas?

Page 34: Introducción a BigData - up - 2015

Cuál fue el cambio Tecnológico ?

Page 35: Introducción a BigData - up - 2015
Page 36: Introducción a BigData - up - 2015
Page 37: Introducción a BigData - up - 2015
Page 38: Introducción a BigData - up - 2015
Page 39: Introducción a BigData - up - 2015
Page 40: Introducción a BigData - up - 2015
Page 41: Introducción a BigData - up - 2015
Page 42: Introducción a BigData - up - 2015
Page 43: Introducción a BigData - up - 2015
Page 44: Introducción a BigData - up - 2015
Page 45: Introducción a BigData - up - 2015
Page 46: Introducción a BigData - up - 2015
Page 47: Introducción a BigData - up - 2015

Framework MapReduce

Paper publicado por google en 2004 que sentó las bases para poder generar procesamiento en paralelo de forma simple

Page 48: Introducción a BigData - up - 2015

MapReduce se basa en la estrategia de dividir y conquistar

Page 49: Introducción a BigData - up - 2015

MapReduce se basa en la estrategia de dividir y conquistar

Data

Page 50: Introducción a BigData - up - 2015

MapReduce se basa en la estrategia de dividir y conquistar

Data Map

Page 51: Introducción a BigData - up - 2015

MapReduce se basa en la estrategia de dividir y conquistar

Data Map

Candidato 1 -> 1Candidato 2 -> 1Candidato 1 -> 1Candidato 4 -> 1

Candidato 1 -> 1Candidato 4 -> 1Candidato 4 -> 1...

Page 52: Introducción a BigData - up - 2015

MapReduce se basa en la estrategia de dividir y conquistar

Candidato 1 = 100Candidato 2 = 130

Candidato 3 = 200Candidato 4 = 330

Data Map Reduce

Page 53: Introducción a BigData - up - 2015

Tecnologías de BigData a nuestra disposición

Page 54: Introducción a BigData - up - 2015

ASPECTOS A TENER EN CUENTA

Page 55: Introducción a BigData - up - 2015

ASPECTOS A TENER EN CUENTA

Procesamiento

Page 56: Introducción a BigData - up - 2015

ASPECTOS A TENER EN CUENTA

Procesamiento

Almacenamiento

Page 57: Introducción a BigData - up - 2015

ASPECTOS A TENER EN CUENTA

Procesamiento

Tiempo

Almacenamiento

Page 58: Introducción a BigData - up - 2015
Page 59: Introducción a BigData - up - 2015

Almacenamiento Distribuido

Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante

Page 60: Introducción a BigData - up - 2015

Almacenamiento Distribuido

Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante

Procesamiento Distribuido

Hadoop MapReduce implementa la teoría de mapreduce para poder dar una forma simple de procesar de forma distribuida los datos almacenados

Page 61: Introducción a BigData - up - 2015

Entorno

Sobre hadoop se han formado construido distintas herramientas que permiten explotar explotar nuevos dominios de los datos y simplificar los accesos

Almacenamiento Distribuido

Hadoop HDFS brinda la posibilidad de almacenar archivos en forma distribuida y redundante

Procesamiento Distribuido

Hadoop MapReduce implementa la teoría de mapreduce para poder dar una forma simple de procesar de forma distribuida los datos almacenados

Page 62: Introducción a BigData - up - 2015
Page 63: Introducción a BigData - up - 2015

Simple Streaming

Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes

Page 64: Introducción a BigData - up - 2015

Simple Streaming

Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes

Arquitecturas Lambda

El creador de storm creó el concepto conocido como arquitectura lambda, que tiene por concepto poder trabajar con datos en realtime y batch en forma combinada y veloz de forma escalable y tolerante a fallas

Page 65: Introducción a BigData - up - 2015

Integración

Storm es una capa de procesamiento muy potente diseñada para poder integrarse con diversos sub-sistemas, entre ellos sistemas de queue streaming y hadoop

Simple Streaming

Storm está diseñado para permitir procesar datos en streaming de forma distribuida liberando al desarrollador de las complejidades subyacentes

Arquitecturas Lambda

El creador de storm creó el concepto conocido como arquitectura lambda, que tiene por concepto poder trabajar con datos en realtime y batch en forma combinada y veloz de forma escalable y tolerante a fallas

Page 66: Introducción a BigData - up - 2015
Page 67: Introducción a BigData - up - 2015

Simplicidad

Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado

Page 68: Introducción a BigData - up - 2015

Hadoop

Spark se integra de forma efectiva con el sistema de almacenamiento de hadoop y con el sistema YARN de distribución de tareas de hadoop

Simplicidad

Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado

Page 69: Introducción a BigData - up - 2015

Streaming

Spark permite con el mismo lenguaje que se procesa información en batch procesar datos en streaming, separando para esto la información entrante en pequeños “bloques”

Hadoop

Spark se integra de forma efectiva con el sistema de almacenamiento de hadoop y con el sistema YARN de distribución de tareas de hadoop

Simplicidad

Spark trae con sigo un nuevo modelo de consultar la información el cual permite simplificar y acelerar los procesamientos que usualmente llevan varias etapas, haciendo esto en un lenguaje simplificado

Page 70: Introducción a BigData - up - 2015
Page 71: Introducción a BigData - up - 2015