data science & big data

77
Data Science & Big Data Ernesto Mislej - @fetnelio [email protected] Buenos Aires, 24 de Julio de 2014

Upload: ernesto-mislej

Post on 04-Nov-2014

399 views

Category:

Technology


5 download

DESCRIPTION

Clase de Introducción a Data Science & Big Data Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"

TRANSCRIPT

Page 1: Data Science & Big Data

Data Science & Big Data Ernesto Mislej - @fetnelio [email protected]

Buenos Aires, 24 de Julio de 2014

Page 2: Data Science & Big Data

1

By Gage (Own work) [Public domain], via Wikimedia Commons

Page 3: Data Science & Big Data

2

Experimentación

blog.optimizely.com/2010/11/29/how-obama-raised-60-million-by-running-a-simple-experiment/

Page 4: Data Science & Big Data

3

The Expression of Emotions in 20th Century Books Acerbi, A, Lampos, V, Garnett, P, Bentley, AR, 2013

Page 5: Data Science & Big Data

4

Referencias: The Expression of Emotions in 20th … - Michel J-P, Shen YK, Aiden AP, Veres A, Gray MK, et al. (2011) Quantitative analysis of culture using millions of digitized books. Science 331: 176–182. - Lieberman E, Michel J-P, Jackson J, Tang T, Nowak MA (2007) Quantifying the evolutionary dynamics of language. Nature 449: 713–716. - Pagel M, Atkinson QD, Meade A (2007) Frequency of word-use predicts rates of lexical evolution throughout Indo-European history. Nature 449: 717–720. - DeWall CN, Pond RS Jr, Campbell WK, Twenge JM (2011) Tuning in to Psychological Change: Linguistic Markers of Psychological Traits and Emotions Over Time in Popular U.S. Song Lyrics. Psychology of Aesthetics, Creativity and the Arts 5: 200–207

Page 6: Data Science & Big Data

5

Wikileaks Data-Journalism

Page 7: Data Science & Big Data

6

Qué es Data Science?

“El futuro le pertenece a las compañías y a las personas que convierten datos en productos.”

Mike Loukides, O’Reilly Radar 2010 Data science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.

Wikipedia, 2014

Page 8: Data Science & Big Data

7

“…on any given day, a team member could author a multistage processing pipeline in Python, design a hypothesis test, perform a regression analysis over data samples with R, design and implement an algorithm for some data-intensive product or service in Hadoop, or communicate the results of our analyses to other members of the organization”

Information Platforms as Dataspaces, by Jeff Hammerbacher

Data Scientist: The Sexiest Job of the 21st Century

Harvard Business Review article by Thomas H. Davenport and D.J. Patil

Data Scientist: The sexiest job of 21st century!

Page 9: Data Science & Big Data

8

A

B

Page 10: Data Science & Big Data

9

A

B

Page 11: Data Science & Big Data

10

A

B

Google PageRank

Page 12: Data Science & Big Data

11

A

B

Google Twitter

PageRank

Page 13: Data Science & Big Data

12

Web Buzz!

“…Scientific hindsight shows that Google Flu Trends far overstated this year's flu season…”

David Wagner, Atlantic Wire, Feb 13 2013

Page 14: Data Science & Big Data

13

“La radio pasa Whitney, voy a llorar! Qué canción triste” “Whitney no murió, qué tristeza, Dios!” “Realmente Whitney murió? Qué mal” “Whitney Houston y Michael Jackson, quién tenía más problemas?” “Cuando canta Whitney me pongo muy triste” “Te amamos Whitney”

Pobre Whitney…

Page 15: Data Science & Big Data

14

Límites: Correlación vs. Causalidad

Correlation does not imply causation

Page 16: Data Science & Big Data

15

Principio de Bonferroni

Page 17: Data Science & Big Data

16

Big Data Buzz!

Page 18: Data Science & Big Data

17

Page 19: Data Science & Big Data

18

Las 4V Big Data: Volumen, Velocidad, Variedad, Veracidad

Page 20: Data Science & Big Data

19

Volumen ¿Cuánto es mucho?

"Big data sizes are a constantly moving target" "Hoy en 2 días generamos tanta información como toda la que se generó en la historia de la civilización hasta el año 2003" Los exabytes (mucho más que mega, giga, tera o peta) que generan a diario nuestras máquinas en red exceden ampliamente toda la información junta generada hasta el siglo XXI Escalabilidad

Page 21: Data Science & Big Data

20

Velocidad - Análisis del Stream de datos - Los autos modernos tienen más de 100 sensores que generan datosd desde nivel de combustible, presión de neumáticos, etc. - La NY Stock Exchange captura 1 TB de información de trading durante cada sesión. - Para el 2016 se esperan tener 19900 Millones de aparatos conectados. 2.5 aparatos por persona en el planeta.

Nuevos requerimientos a las DB Transaccionales. Consistencia eventual

Page 22: Data Science & Big Data

21

Page 23: Data Science & Big Data

22

Variedad – Información en distintos formatos

-  En 2011, la industria de la Salud generó +150 Exabytes (1000 Millones de Gigabytes) de documentación médica, tratamientos e historias clínicas. -  30Mil Millones de contenido compartido en Facebook por mes. -  En 2014 se esperan vender 420 Millones de Health Monitors portátiles -  4Mil Millones de horas de video en YouTube vistas por mes y 400 Millones de tuits por día.

Page 24: Data Science & Big Data

23

Veracidad – Incerteza en los datos

-  múltiples fuentes que compiten por la verdad, -  inconsistencia, -  ambigüedad, -  modelos aproximados

Cómo manejarse en un mundo de incertezas

Page 25: Data Science & Big Data

24

Modelos analíticos según la complejidad Data inputs

Balances

Filtro Colaborativo

Social Media Stream

BI - OLAP

Cart Analysis

Internet of Things

Page 26: Data Science & Big Data

25

+ Optimización + Innovación

Erupcción del Géiser Strokkur, by Andreas Tille

Page 27: Data Science & Big Data

26

¿Qué información derivada de nuestro

negocio puede interesarles a nuestros clientes o proveedores?

Page 28: Data Science & Big Data

27

Los skills de LinkedIn

Un tiempo atrás LinkedIn agregó la sección de skills permit iendo definir nuestras habil idades profesionales de manera más precisa y a la vez nuestros colegas nos las validan y sugieren nuevas. ¿Qué skills tienen mis colegas que aún yo no tengo? ¿Qué otros skills pueden llegar a interesarme adquirir? o bien, visto en red ¿qué capacidades está demandando el mercado laboral en Latinoamérica? ¿Esas demandas estarán cubiertas en los próximos años?

Page 29: Data Science & Big Data

28

Diseño de Data-Products

El diseño de nuevos productos es en sí una aventura ya que debemos ampliar las fronteras del negocio conocido. Tomémos el caso de los logs de acceso: anteriormente descartados, archivados o relegados a una función de monitor de actividad; hoy en día son la base para realizar análisis de click-stream, mejorar la usabilidad y experiencia de usuario, inducir patrones de consumo, personalización, etc.

A R2D2 blueprint Lucasfilm Image Archives

Page 30: Data Science & Big Data

29

Big Data en Agro

Page 31: Data Science & Big Data

30

The Climate Corporation Monsanto

Trilla del trigo en el Antiguo Egipto, By Carlos E. Solivérez

Page 32: Data Science & Big Data

31

Big Data en La conquista del Espacio

Page 33: Data Science & Big Data

32

Big Data en Medicina

Page 34: Data Science & Big Data

33

Jawbone & Wearables

Page 35: Data Science & Big Data

34

Big Data en Energía

Page 36: Data Science & Big Data

35

NEST & Google

Page 37: Data Science & Big Data

36

Tu información puede ser valiosa para algún vecino de tu ecosistema productivo,

¿cómo podrías productizar esa información? ¿Qué datos genera tu core business a los que

aún no les has encontrado valor?

Reserva Nacional Esteros del Ibera, Argentina, por Joshua Stone

Page 38: Data Science & Big Data

37

Volveré y seré millones (de datos)

Page 39: Data Science & Big Data

38

Un astrónomo, un físico y un matemático estaban viajando en tren por Escocia cuando uno dice “una oveja negra…”

Page 40: Data Science & Big Data

39

El caso del submarinista calcinado Se cuenta que alguien, tras un gran incendio forestal, encuentra un cuerpo quemado y, al acercarse, descubre que tiene puesto un equipo de buceo, traje de neopreno, mascarilla y botellas de oxígeno y pies de rana…

Page 41: Data Science & Big Data

40

La lógica forense

Page 42: Data Science & Big Data

41

Page 43: Data Science & Big Data

42

Page 44: Data Science & Big Data

43

El razonamiento lógico: El esquema deductivo Regla general: "Todos las monedas de la bolsa negra son falsas". Caso: "Estas monedas provienden de la bolsa negra". Resultado: "Estas monedas son falsas". La deducción mantiene la verdad.

Page 45: Data Science & Big Data

44

El razonamiento lógico: El esquema inductivo Regla general: "Estas monedas provienen de la bolsa negra". Caso: "Estas monedas son falsas". Resultado: "Todas las monedas de la bolsa negra son falsas". A partir de unas observaciones se construyen reglas más generales que pueden llevar a resultados falsos

Page 46: Data Science & Big Data

45

El razonamiento lógico: El esquema abductivo Regla general: "Todas las monedas de la bolsa negra son falsas". Caso: "Estas monedas son falsas". Resultado: "Estas monedas provienen de la bolsa negra". Un razonamiento abductivo ofrece una hipótesis que lo explica. Esa conjetura busca ser, a primera vista, la mejor explicación, o la más probable.

Page 47: Data Science & Big Data

46

Big Data en Redes Sociales

Page 48: Data Science & Big Data

47

¿Es posible inducir características de usuario a partir de su comportamiento en las redes sociales?

Page 49: Data Science & Big Data

48

You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users Yi Zhu, 2010

Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes para validar la ubicación.

Page 50: Data Science & Big Data

49

Palabras clave locales en los Tweets

Page 51: Data Science & Big Data

50

Inferring gender of movie reviewers: exploiting writing style, content and metadata Otterbacher, 2010

El trabajo utilizó los comentarios realizados por usuarios de IMDb. El modelo de detección de género se basa en métricas de estilo del lenguaje y feedback social; y es independiente de la longitud de la crítica. En contraposición de otros dominios, como la literatura o textos científicos, el modelo de discriminación de género del aficionado de películas alcanzó un 73.7% de certeza.

Page 52: Data Science & Big Data

51

An Exploration of Observable Features Related to Blogger Age Burger & Henderson, 2006 El modelo predictor de edad utilizó, además del texto de los posts, indicadores cuantitativos como: 1.  La hora y día de la semana de publicación 2.  La cantidad de Links e imágenes 3.  La cantidad de seguidores 4.  La cantidad y tipo de comentarios 5.  Los intereses

Page 53: Data Science & Big Data

52

“How Old Do You Think I Am?”: A Study of Language and Age in Twitter Nguyen, Gravel, Trieschnigg, Meder, 2013 Las variables que cambian según la edad: 1.  TODO EN MAYUSCULAS: HAHA, LOL 2.  Prolongación alfabética: niiiiiice vs. nice 3.  Intensificadores: so, really & awful 4.  Referencias personales: I, me, mine, my, myself 5.  Conversaciones, RE, 6.  RT, likes, #hashtags

Page 54: Data Science & Big Data

53

Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter + A Machine Learning Approach to Twitter User Classiffication Pennacchiotti, Popescu, 2011 El modelo general de profile toma en cuenta: 1.  perfil del usuario, 2.  comportamiento en mensajes, 3.  contenido de los mensajes, 4.  estructura de la red social (seguidores/

seguidos)

Los resultados del trabajo: 1.  Political Affiliation. precision (0.989) &

recall (~0.872) 2.  Starbucks precision (0.763) & recall

(0.759) 3.  Etnia: precision (0.878) & recall (0.799)

Page 55: Data Science & Big Data

54

Our Twitter Profiles, Our Selves: Predicting Personality with Twitter Quercia, Kosinski, Stillwell, Crowcroft, 2011

The Big Five Personality Test – OCEAN

Page 56: Data Science & Big Data

55

Big Data en Agro

Inteligencia Colectiva

Page 57: Data Science & Big Data

56

¿Qué define a una red social?

Las características escenciales de una red social son: 1.  Las entidades que participan de la red son típicamente personas. 2.  Las relaciones entre esas entidades toman referencia a una relación de la vida real como

amigos, familiares, colegas. 3.  Existe la noción de nonrandomness or locality

Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C, luego la probabilidad que B y C estén relacionados es mayor que el promedio.

Page 58: Data Science & Big Data

57

Detección de comunidades en grafos Fortunato, 2010 Los grafos sociales no son regulares como las lattices. Tampoco son random, donde la distribución de ejes es uniforme en todos los nodos. Los grafos sociales están estructurados en comunidades revelando un alto nivel de orden y organización. El grado nodal tiene una distribución de power law, esto es muchos nodos con pocos ejes conviven con muy pocos con alto grado..

Page 59: Data Science & Big Data

58

Detecting communities by label propagation Raghavan et al, 2007 Cada nodo está asociado con una etiqueta con un número entero. 1.  Al inicio cada vértice tiene una etiqueta distinta. 2.  Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más

popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se escoje alguna aleatoriamente. Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los miembros de la comunidad.

3.  Todos los vértices con la misma etiqueta pertenecen a la misma comunidad. Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una actualización “asincrónica”.

Page 60: Data Science & Big Data

59

Modelos de propagación de mensajes y comunidades Leskovec, 2006 Existen numerosos modelos de propagación de mensajes en redes sociales. Los siguientes 2 son los más populares: 1.  Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado

cuando la suma de sus vecinos supera el umbral.

2.  Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede cambiar su estado bajo una probabilidad dada.

Page 61: Data Science & Big Data

60

The Gaydar Project MIT, 2009 El estudio demostró que es posible determinar –de manera muy precisa- la orientación sexual del usuario, analizando la información expuesta por su red de contactos. El modelo observa sólo la información pública de los vínculos (no la información del usuario, sino el de tus vínculos). Y eso funciona aunque seas muy reservado que no publicás nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.

Page 62: Data Science & Big Data

61

Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook Backstrom, Kleinberg, 2013

¿Es posible reconocer el amor sólo viendo la estructura del grafo social? ¿Cuánto dura el amor?

Page 63: Data Science & Big Data

62

Private traits and attributes are predictable from digital records of human behavior Kosinskia, Stillwella, Graepel, 2013 El modelo usa los likes de los usuarios para alimentar un modelo de inferencia. Se trabajó con 58000 voluntarios que proveyeron sus likes y datos demográficos e intereses. Para categorías dicotómicas tiene los siguientes resultados: •  African Americans vs. Caucasian 95% •  Género 93% •  Hombres homo/heterosexual 88% •  Demócratas vs. republicanos 85% •  Cristianos vs. Islam 82%

Page 64: Data Science & Big Data

63

No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities Leskovec, 2013

Page 65: Data Science & Big Data

64

Sistemas de Recomendación

Page 66: Data Science & Big Data

65

The Long Tail •  Recomendaciones de items muy poco populares y aún

desconocidos por el usuario, pero que serán de su agrado!

•  20 % de los items acumulan el 80 % de los votos

•  Serendipia (a.k.a chiripa) ocurre cuando encontrás algo supuestamente inesperado.

Page 67: Data Science & Big Data

66

The Long Tail

Page 68: Data Science & Big Data

67

Page 69: Data Science & Big Data

68

Juan Carlos

Page 70: Data Science & Big Data

69

René

Page 71: Data Science & Big Data

70

Ejemplos de sistemas de recomendación

•  Ofrecer artículos periodísticos en sitios de noticias online basados en los intereses del lector.

•  Ofrecer sugerencias de productos en una tienda online basados en el historial de compra. •  Encontrar cuál es el grupo de fans con más ganas para viajar a ver un recital. •  Ofrecer cursos de capacitación a personas conociendo sus capacidades y su historia

curricular. •  Sugerir destinos de viaje en relación a las búsquedas realizadas en una agencia de viajes

online.que participan de la red son típicamente personas.

Page 72: Data Science & Big Data

71

Paradigmas de los sistemas de recomendación

Los recsys utilizan diferentes tecnologías, podemos clasificarlas dentro de este grupo de 2 (+1) categorías. •  Basados en Contenido el sistema encuentra características de los ítems pertenecientes al

catálogo y encuentra ítems aún no vistos. Por ejemplo, si el usuario vio muchas peliculas cowboys, el sistema recomendará otras películas de ese género.

•  Filtros Colaborativos el sistema encuentra otros usuarios similares respecto de sus historiales de compra y recomendará items aún no vistos.

•  Basados en Conocimiento el sistema emula el comportamiento de un vendedor realizando preguntas para conocer cuáles son nuestros intereses

Page 73: Data Science & Big Data

72

Basados en contenido

¿Donde está el gato

en los videos de gatos?

Page 74: Data Science & Big Data

73

Filtros Colaborativos Cold Start, Feedback

Page 75: Data Science & Big Data

74

Basados en Conocimiento Modelar la conversación

Page 76: Data Science & Big Data

75

Duplicados

Explicación Contexto

Page 77: Data Science & Big Data

7puentes.com +54 11 4202 5487 Alem 1303 - Banfield, Buenos Aires, Argentina

Ernesto Mislej - @fetnelio [email protected]