data science & big data

Post on 04-Nov-2014

399 Views

Category:

Technology

5 Downloads

Preview:

Click to see full reader

DESCRIPTION

Clase de Introducción a Data Science & Big Data Maestría en Administración de Empresas de Base Tecnológica - "Seminario límites tecnológicos y tendencias en Informática"

TRANSCRIPT

Data Science & Big Data Ernesto Mislej - @fetnelio ernesto@7puentes.com

Buenos Aires, 24 de Julio de 2014

1

By Gage (Own work) [Public domain], via Wikimedia Commons

2

Experimentación

blog.optimizely.com/2010/11/29/how-obama-raised-60-million-by-running-a-simple-experiment/

3

The Expression of Emotions in 20th Century Books Acerbi, A, Lampos, V, Garnett, P, Bentley, AR, 2013

4

Referencias: The Expression of Emotions in 20th … - Michel J-P, Shen YK, Aiden AP, Veres A, Gray MK, et al. (2011) Quantitative analysis of culture using millions of digitized books. Science 331: 176–182. - Lieberman E, Michel J-P, Jackson J, Tang T, Nowak MA (2007) Quantifying the evolutionary dynamics of language. Nature 449: 713–716. - Pagel M, Atkinson QD, Meade A (2007) Frequency of word-use predicts rates of lexical evolution throughout Indo-European history. Nature 449: 717–720. - DeWall CN, Pond RS Jr, Campbell WK, Twenge JM (2011) Tuning in to Psychological Change: Linguistic Markers of Psychological Traits and Emotions Over Time in Popular U.S. Song Lyrics. Psychology of Aesthetics, Creativity and the Arts 5: 200–207

5

Wikileaks Data-Journalism

6

Qué es Data Science?

“El futuro le pertenece a las compañías y a las personas que convierten datos en productos.”

Mike Loukides, O’Reilly Radar 2010 Data science is a discipline that incorporates varying degrees of Data Engineering, Scientific Method, Math, Statistics, Advanced Computing, Visualization, Hacker mindset, and Domain Expertise. A practitioner of Data Science is called a Data Scientist. Data Scientists solve complex data analysis problems.

Wikipedia, 2014

7

“…on any given day, a team member could author a multistage processing pipeline in Python, design a hypothesis test, perform a regression analysis over data samples with R, design and implement an algorithm for some data-intensive product or service in Hadoop, or communicate the results of our analyses to other members of the organization”

Information Platforms as Dataspaces, by Jeff Hammerbacher

Data Scientist: The Sexiest Job of the 21st Century

Harvard Business Review article by Thomas H. Davenport and D.J. Patil

Data Scientist: The sexiest job of 21st century!

8

A

B

9

A

B

10

A

B

Google PageRank

11

A

B

Google Twitter

PageRank

12

Web Buzz!

“…Scientific hindsight shows that Google Flu Trends far overstated this year's flu season…”

David Wagner, Atlantic Wire, Feb 13 2013

13

“La radio pasa Whitney, voy a llorar! Qué canción triste” “Whitney no murió, qué tristeza, Dios!” “Realmente Whitney murió? Qué mal” “Whitney Houston y Michael Jackson, quién tenía más problemas?” “Cuando canta Whitney me pongo muy triste” “Te amamos Whitney”

Pobre Whitney…

14

Límites: Correlación vs. Causalidad

Correlation does not imply causation

15

Principio de Bonferroni

16

Big Data Buzz!

17

18

Las 4V Big Data: Volumen, Velocidad, Variedad, Veracidad

19

Volumen ¿Cuánto es mucho?

"Big data sizes are a constantly moving target" "Hoy en 2 días generamos tanta información como toda la que se generó en la historia de la civilización hasta el año 2003" Los exabytes (mucho más que mega, giga, tera o peta) que generan a diario nuestras máquinas en red exceden ampliamente toda la información junta generada hasta el siglo XXI Escalabilidad

20

Velocidad - Análisis del Stream de datos - Los autos modernos tienen más de 100 sensores que generan datosd desde nivel de combustible, presión de neumáticos, etc. - La NY Stock Exchange captura 1 TB de información de trading durante cada sesión. - Para el 2016 se esperan tener 19900 Millones de aparatos conectados. 2.5 aparatos por persona en el planeta.

Nuevos requerimientos a las DB Transaccionales. Consistencia eventual

21

22

Variedad – Información en distintos formatos

-  En 2011, la industria de la Salud generó +150 Exabytes (1000 Millones de Gigabytes) de documentación médica, tratamientos e historias clínicas. -  30Mil Millones de contenido compartido en Facebook por mes. -  En 2014 se esperan vender 420 Millones de Health Monitors portátiles -  4Mil Millones de horas de video en YouTube vistas por mes y 400 Millones de tuits por día.

23

Veracidad – Incerteza en los datos

-  múltiples fuentes que compiten por la verdad, -  inconsistencia, -  ambigüedad, -  modelos aproximados

Cómo manejarse en un mundo de incertezas

24

Modelos analíticos según la complejidad Data inputs

Balances

Filtro Colaborativo

Social Media Stream

BI - OLAP

Cart Analysis

Internet of Things

25

+ Optimización + Innovación

Erupcción del Géiser Strokkur, by Andreas Tille

26

¿Qué información derivada de nuestro

negocio puede interesarles a nuestros clientes o proveedores?

27

Los skills de LinkedIn

Un tiempo atrás LinkedIn agregó la sección de skills permit iendo definir nuestras habil idades profesionales de manera más precisa y a la vez nuestros colegas nos las validan y sugieren nuevas. ¿Qué skills tienen mis colegas que aún yo no tengo? ¿Qué otros skills pueden llegar a interesarme adquirir? o bien, visto en red ¿qué capacidades está demandando el mercado laboral en Latinoamérica? ¿Esas demandas estarán cubiertas en los próximos años?

28

Diseño de Data-Products

El diseño de nuevos productos es en sí una aventura ya que debemos ampliar las fronteras del negocio conocido. Tomémos el caso de los logs de acceso: anteriormente descartados, archivados o relegados a una función de monitor de actividad; hoy en día son la base para realizar análisis de click-stream, mejorar la usabilidad y experiencia de usuario, inducir patrones de consumo, personalización, etc.

A R2D2 blueprint Lucasfilm Image Archives

29

Big Data en Agro

30

The Climate Corporation Monsanto

Trilla del trigo en el Antiguo Egipto, By Carlos E. Solivérez

31

Big Data en La conquista del Espacio

32

Big Data en Medicina

33

Jawbone & Wearables

34

Big Data en Energía

35

NEST & Google

36

Tu información puede ser valiosa para algún vecino de tu ecosistema productivo,

¿cómo podrías productizar esa información? ¿Qué datos genera tu core business a los que

aún no les has encontrado valor?

Reserva Nacional Esteros del Ibera, Argentina, por Joshua Stone

37

Volveré y seré millones (de datos)

38

Un astrónomo, un físico y un matemático estaban viajando en tren por Escocia cuando uno dice “una oveja negra…”

39

El caso del submarinista calcinado Se cuenta que alguien, tras un gran incendio forestal, encuentra un cuerpo quemado y, al acercarse, descubre que tiene puesto un equipo de buceo, traje de neopreno, mascarilla y botellas de oxígeno y pies de rana…

40

La lógica forense

41

42

43

El razonamiento lógico: El esquema deductivo Regla general: "Todos las monedas de la bolsa negra son falsas". Caso: "Estas monedas provienden de la bolsa negra". Resultado: "Estas monedas son falsas". La deducción mantiene la verdad.

44

El razonamiento lógico: El esquema inductivo Regla general: "Estas monedas provienen de la bolsa negra". Caso: "Estas monedas son falsas". Resultado: "Todas las monedas de la bolsa negra son falsas". A partir de unas observaciones se construyen reglas más generales que pueden llevar a resultados falsos

45

El razonamiento lógico: El esquema abductivo Regla general: "Todas las monedas de la bolsa negra son falsas". Caso: "Estas monedas son falsas". Resultado: "Estas monedas provienen de la bolsa negra". Un razonamiento abductivo ofrece una hipótesis que lo explica. Esa conjetura busca ser, a primera vista, la mejor explicación, o la más probable.

46

Big Data en Redes Sociales

47

¿Es posible inducir características de usuario a partir de su comportamiento en las redes sociales?

48

You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users Yi Zhu, 2010

Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes para validar la ubicación.

49

Palabras clave locales en los Tweets

50

Inferring gender of movie reviewers: exploiting writing style, content and metadata Otterbacher, 2010

El trabajo utilizó los comentarios realizados por usuarios de IMDb. El modelo de detección de género se basa en métricas de estilo del lenguaje y feedback social; y es independiente de la longitud de la crítica. En contraposición de otros dominios, como la literatura o textos científicos, el modelo de discriminación de género del aficionado de películas alcanzó un 73.7% de certeza.

51

An Exploration of Observable Features Related to Blogger Age Burger & Henderson, 2006 El modelo predictor de edad utilizó, además del texto de los posts, indicadores cuantitativos como: 1.  La hora y día de la semana de publicación 2.  La cantidad de Links e imágenes 3.  La cantidad de seguidores 4.  La cantidad y tipo de comentarios 5.  Los intereses

52

“How Old Do You Think I Am?”: A Study of Language and Age in Twitter Nguyen, Gravel, Trieschnigg, Meder, 2013 Las variables que cambian según la edad: 1.  TODO EN MAYUSCULAS: HAHA, LOL 2.  Prolongación alfabética: niiiiiice vs. nice 3.  Intensificadores: so, really & awful 4.  Referencias personales: I, me, mine, my, myself 5.  Conversaciones, RE, 6.  RT, likes, #hashtags

53

Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter + A Machine Learning Approach to Twitter User Classiffication Pennacchiotti, Popescu, 2011 El modelo general de profile toma en cuenta: 1.  perfil del usuario, 2.  comportamiento en mensajes, 3.  contenido de los mensajes, 4.  estructura de la red social (seguidores/

seguidos)

Los resultados del trabajo: 1.  Political Affiliation. precision (0.989) &

recall (~0.872) 2.  Starbucks precision (0.763) & recall

(0.759) 3.  Etnia: precision (0.878) & recall (0.799)

54

Our Twitter Profiles, Our Selves: Predicting Personality with Twitter Quercia, Kosinski, Stillwell, Crowcroft, 2011

The Big Five Personality Test – OCEAN

55

Big Data en Agro

Inteligencia Colectiva

56

¿Qué define a una red social?

Las características escenciales de una red social son: 1.  Las entidades que participan de la red son típicamente personas. 2.  Las relaciones entre esas entidades toman referencia a una relación de la vida real como

amigos, familiares, colegas. 3.  Existe la noción de nonrandomness or locality

Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C, luego la probabilidad que B y C estén relacionados es mayor que el promedio.

57

Detección de comunidades en grafos Fortunato, 2010 Los grafos sociales no son regulares como las lattices. Tampoco son random, donde la distribución de ejes es uniforme en todos los nodos. Los grafos sociales están estructurados en comunidades revelando un alto nivel de orden y organización. El grado nodal tiene una distribución de power law, esto es muchos nodos con pocos ejes conviven con muy pocos con alto grado..

58

Detecting communities by label propagation Raghavan et al, 2007 Cada nodo está asociado con una etiqueta con un número entero. 1.  Al inicio cada vértice tiene una etiqueta distinta. 2.  Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más

popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se escoje alguna aleatoriamente. Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los miembros de la comunidad.

3.  Todos los vértices con la misma etiqueta pertenecen a la misma comunidad. Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una actualización “asincrónica”.

59

Modelos de propagación de mensajes y comunidades Leskovec, 2006 Existen numerosos modelos de propagación de mensajes en redes sociales. Los siguientes 2 son los más populares: 1.  Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado

cuando la suma de sus vecinos supera el umbral.

2.  Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede cambiar su estado bajo una probabilidad dada.

60

The Gaydar Project MIT, 2009 El estudio demostró que es posible determinar –de manera muy precisa- la orientación sexual del usuario, analizando la información expuesta por su red de contactos. El modelo observa sólo la información pública de los vínculos (no la información del usuario, sino el de tus vínculos). Y eso funciona aunque seas muy reservado que no publicás nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.

61

Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook Backstrom, Kleinberg, 2013

¿Es posible reconocer el amor sólo viendo la estructura del grafo social? ¿Cuánto dura el amor?

62

Private traits and attributes are predictable from digital records of human behavior Kosinskia, Stillwella, Graepel, 2013 El modelo usa los likes de los usuarios para alimentar un modelo de inferencia. Se trabajó con 58000 voluntarios que proveyeron sus likes y datos demográficos e intereses. Para categorías dicotómicas tiene los siguientes resultados: •  African Americans vs. Caucasian 95% •  Género 93% •  Hombres homo/heterosexual 88% •  Demócratas vs. republicanos 85% •  Cristianos vs. Islam 82%

63

No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities Leskovec, 2013

64

Sistemas de Recomendación

65

The Long Tail •  Recomendaciones de items muy poco populares y aún

desconocidos por el usuario, pero que serán de su agrado!

•  20 % de los items acumulan el 80 % de los votos

•  Serendipia (a.k.a chiripa) ocurre cuando encontrás algo supuestamente inesperado.

66

The Long Tail

67

68

Juan Carlos

69

René

70

Ejemplos de sistemas de recomendación

•  Ofrecer artículos periodísticos en sitios de noticias online basados en los intereses del lector.

•  Ofrecer sugerencias de productos en una tienda online basados en el historial de compra. •  Encontrar cuál es el grupo de fans con más ganas para viajar a ver un recital. •  Ofrecer cursos de capacitación a personas conociendo sus capacidades y su historia

curricular. •  Sugerir destinos de viaje en relación a las búsquedas realizadas en una agencia de viajes

online.que participan de la red son típicamente personas.

71

Paradigmas de los sistemas de recomendación

Los recsys utilizan diferentes tecnologías, podemos clasificarlas dentro de este grupo de 2 (+1) categorías. •  Basados en Contenido el sistema encuentra características de los ítems pertenecientes al

catálogo y encuentra ítems aún no vistos. Por ejemplo, si el usuario vio muchas peliculas cowboys, el sistema recomendará otras películas de ese género.

•  Filtros Colaborativos el sistema encuentra otros usuarios similares respecto de sus historiales de compra y recomendará items aún no vistos.

•  Basados en Conocimiento el sistema emula el comportamiento de un vendedor realizando preguntas para conocer cuáles son nuestros intereses

72

Basados en contenido

¿Donde está el gato

en los videos de gatos?

73

Filtros Colaborativos Cold Start, Feedback

74

Basados en Conocimiento Modelar la conversación

75

Duplicados

Explicación Contexto

7puentes.com +54 11 4202 5487 Alem 1303 - Banfield, Buenos Aires, Argentina

Ernesto Mislej - @fetnelio ernesto@7puentes.com

top related