ia + big data = problema + oportunidad

79
IA + big data = problema + oportunidad

Upload: francisco-manuel-rangel-pardo

Post on 15-Apr-2017

278 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: IA + Big Data = problema + oportunidad

IA + big data = problema + oportunidad

Page 2: IA + Big Data = problema + oportunidad

AUTORITASAutoritas es una consultora tecnológica con profesionales multidisciplinares de diferentes países del mundo:- Ingenieros en Informática y Telecomunicaciones- Psicólogos- Economistas- Abogados- Politólogos

Page 3: IA + Big Data = problema + oportunidad

Nuestra sede central está en Madrid (España), y tenemos oficinas en Argentina, Brasil, Chile, México, Panamá y Reino Unido.

AUTORITAS

Page 4: IA + Big Data = problema + oportunidad

Nos especializamos en :- Español- Portugués- Inglés

Estamos empezando a trabajar con:- Italiano- Alemán- Francés

AUTORITAS

Page 5: IA + Big Data = problema + oportunidad

La formación y la comunicación son muy importantes para nosotros.

La Escucha Activa es una nueva disciplina y nosotros estamos comprometidos con su difusión y formación a los profesionales interesados en el campo.

Iberolabs

AUTORITAS

Page 6: IA + Big Data = problema + oportunidad

En Autoritas hacemos una investigación activa en colaboración con reputadas universidades y centros de investigación.

‣ 2008-2009: Avanza AL4Tour (ITC/464/2008)

Objective: Develop an Active Listening platform specialized in the Tourism Sector

Budget: 744,681.83 €

‣ 2011-2012: Avanza Competitividad HCE (TSI-020100-2011-156)

Objective: Specialize the Active Listening platform in the Healthcare Sector by developing an automatic coder of diseases expressed in natural language into ICD-9 MC codes.

Budget: 432,129.25€

‣ 2012: Innpacto Ecoportunity (IPT-2012-1220-430000)

Objective: Combine macroeconomic indicators with social media information to predict trends.

Budget: 576,629.00€

AUTORITAS

Page 7: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

7

@kicorangel

www.kicorangel.com

Page 8: IA + Big Data = problema + oportunidad

auto

ritas

8

¿Qué es Social Business Intelligence?

http

://hd

wal

l.co/

face

book

-wal

lpap

er-d

igg/

DATOS -> INFORMACIÓN -> CONOCIMIENTO -> INTELIGENCIA

Herramientas ymétodos

Interpretaciónhumana

Aplicaciónestratégica

Page 9: IA + Big Data = problema + oportunidad

auto

ritas

9

No sólo consiste en responder preguntas...

...sino también en saber qué nuevas preguntas plantear

Page 10: IA + Big Data = problema + oportunidad

auto

ritas

10

“Cuando eres capaz de ver lo sutil, es fácil ganar”

Sun Tzu

Page 11: IA + Big Data = problema + oportunidad

auto

ritas

11

Ciclo de Inteligencia

Page 12: IA + Big Data = problema + oportunidad

auto

ritas

12

Recuperación de información

...y limpieza

Page 13: IA + Big Data = problema + oportunidad

auto

ritas

13

OBJETIVO: Recuperar todo lo que hay que recuperar y sin recuperar nada que no

se deba recuperar

Page 14: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

• > 500 millones de usuarios de Facebook

• > 150 millones de usuarios de Twitter• > 90 millones de Webs• > 150 millones de blogs• aprox. 1000 exabytes anuales

EXCESO DE INFORMACIÓN DESESTRUCTURADA

Algunas cifras... (muy antiguas)

Page 15: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Orígenes de información (canales)

Page 16: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

API vs. Crawler

‣API restringe el acceso a los datos: Facilitan sólo una muestra de la información existente y accesible a través de buscador‣API restringe la cantidad de peticiones realizables‣Crawler requiere infraestructura y solución a problemas IR (periodicidad, fechas, idiomas, almacenamiento...)‣Crawler puede generar problemas legales

API gratuita vs. pago

‣Restricción de resultados: las APIs gratuítas restringen en exceso los resultados frente a la interfaz del buscador‣Limitaciones de licencia de las APIs gratuítas, no permitiendo por ejemplo la reordenación, mezclado y almacenamiento de datos

Page 17: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as(Re)Clasificar lo recuperado

¿Qué pasa cuando entra una noticia desde un buscador generalista?

¿Qué canal es la url que se enlaza desde otro canal?

¿Cómo diferenciar un blog de una web corporativa?

¿Cómo determinar de qué dominio es una determinada página?

Identificar

Acotar

Clasificar

Desambiguar

Page 18: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Sección de anuncios sin

relevancia para el contenido

Sección de última hora que

distorsiona la semántica de la

página

Contenido útil

Recuperar contenido útil

Page 19: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Inglésestoy sin internet ¬¨¬¨ fuuuuck!!!

Finlandés... euskocaja, como euskolabel, euskotren, euskomueble... XDDD

PortuguésFlowah Powah!

AlemánVierrrrrrrrrrrrnes, egunon!!

Modelos del lenguaje vs. n-Gramms vs. Machine Learning

Filtrar por idioma

Page 20: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Geografía de origen vs. geografía de contenido vs. geografía de perfil

Filtrar por geografía

Page 21: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

resultados

elimina url prescindibles

filtra palabras

marca url’s como SpamElimina url’s

Quita de la ‘vista’ los antitesauros

filtra #hastags

filtra influenciadores

filtra localizaciones

Otros filtros

Page 22: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Creo que he resuelto el:

Page 23: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Evaluación de la Recuperación de Información...

...en la ciencia

Page 24: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

7.000 recuperados 54 incorrectos 99.23% precisión

3.000 recuperados50 no recuperados

98.36% alcance

Evaluación de la Recuperación de Información...

...en la empresa

¡¡Estamos perdiendo

credibilidad!!

Page 25: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

Pero es que... la recuperación de

información NO es una contabilidad

No me des excusas...

Page 26: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

=10100¡¡Pero Google

siempre exagera!

...porque Google dice...

Page 27: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

asAnte un “fallo” técnico lo primero que se busca......no es la solución, es al culpable

Técnico

Page 28: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

28

Extracción de conocimiento...

Page 29: IA + Big Data = problema + oportunidad

auto

ritas

29

No sólo consiste en responder preguntas...

...sino también en saber qué nuevas preguntas plantear

Page 30: IA + Big Data = problema + oportunidad

auto

ritas

30

¿Qué? -> E.g. Conceptualización de marcas

¿De qué está hablando la gente?

Page 31: IA + Big Data = problema + oportunidad

auto

ritas

31

¿De qué hablan, de la consonante, del lenguaje de programación o de la empresa de telecomunicaciones gallega?

Page 32: IA + Big Data = problema + oportunidad

auto

ritas

32

¿Cuándo? -> E.g. Gestión de crisis

¿Cuándo suceden las cosas?

Page 33: IA + Big Data = problema + oportunidad

auto

ritas

33

Si la fecha va en la url es fácil saberla

Eso es relativo, esta URL es de Julio o de

Enero:http://xxx/07/01/2010/

crawler-403-forbidden.html

Page 34: IA + Big Data = problema + oportunidad

auto

ritas

34

¿Dónde? -> Varias perspectivas

¿Dónde ocurre una conversación?

¿De dónde se habla en una conversación?

Page 35: IA + Big Data = problema + oportunidad

auto

ritas

35

¿Cómo? -> No sólo sentiment analysis

La polaridad es sólo una dimensión, la emocional, la de valores, DAFO... todas ellas responden a la cuestión ¿cómo?

Page 36: IA + Big Data = problema + oportunidad

auto

ritas

36

Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?

Page 37: IA + Big Data = problema + oportunidad

auto

ritas

37

Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?

Mi pregunta: ¿Para quién?- ¿Para el presidente del país?- ¿Para el líder de la oposición?- ¿Para el director del Banco de España?- ¿Para el inversor extranjero?- ¿Para el capitalista nacional?- ¿Para el que tiene una hipoteca?

Page 38: IA + Big Data = problema + oportunidad

auto

ritas

38

¿Quién? -> Análisis de Red Social

Si quiero transmitir con éxito un mensaje, ¿quién me puede ayudar?

Si hay un conflicto,¿a quién tengo que vigilar?

Page 39: IA + Big Data = problema + oportunidad

auto

ritas

39

EMOTIONAL PROFILE

GENDERAGE GROUP

NAT

IVE

LA

NG

UA

GE

... ¡y mucho mucho más!

¿Por qué? -> Author Profiling

Page 40: IA + Big Data = problema + oportunidad

auto

ritas

40

TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE

NOCHE DE ELECCIONES GENERALES

216.000 documentos analizados (picos de 120 docs/seg)‣Tweets: 176.815‣Posts: 7.034‣News: 2013‣Facebook: 2.184‣Multimedia: 671

283.000 etiquetas generadas1.900.000 términos indexados

-Elevado número usuarios concurrentes

Por supuesto, en ¡¡tiempo real!!

Page 41: IA + Big Data = problema + oportunidad

auto

ritas

41

ORDENLA SOLUCIÓN

ES EL BIG DATA

¡Todo el mundo lo dice!

Page 42: IA + Big Data = problema + oportunidad

auto

ritas

42

VOLUMEN

VELOCIDAD

VARIEDAD

VIRALIDAD

VISCOSIDAD

¡Busca a Neo!

¡¡¡NOOOO!!! El Big Data es el problema...

Page 43: IA + Big Data = problema + oportunidad

auto

ritas

43

El big data es la solución, el problema... y la oportunidad

https://github.com/autoritas/RD-Lab/blob/master/doc/presentations/ataque.mov

Page 44: IA + Big Data = problema + oportunidad

auto

ritas

44

Veamos un problema concreto...

Page 45: IA + Big Data = problema + oportunidad

auto

ritas

45

Identificación de Variedad del Lenguaje

Page 46: IA + Big Data = problema + oportunidad

auto

ritas

Doble problema

Materia prima Herramientas

Page 47: IA + Big Data = problema + oportunidad

auto

ritas

Problema 1: Generar datasets

Materia prima

• HispaBlogs• HispaTweets

Page 48: IA + Big Data = problema + oportunidad

auto

ritas

48

HispaBlogsFranco et al., 2015

Page 49: IA + Big Data = problema + oportunidad

auto

ritas

49

HispaTweets

Proceso de construcción del corpus

Fabra et al., 2016

Page 50: IA + Big Data = problema + oportunidad

auto

ritas

50

HispaTweets

Proceso de obtención de coordenadas geográficas

Proceso de construcción del corpus

Fabra et al., 2016

Page 51: IA + Big Data = problema + oportunidad

auto

ritas

51

HispaTweets

Del tuit al usuario, ...y su representatividad poblacional

Fabra et al., 2016

Page 52: IA + Big Data = problema + oportunidad

auto

ritas

52

HispaTweets

Dataset en brutoFabra et al., 2016

Page 53: IA + Big Data = problema + oportunidad

auto

ritas

53

HispaTweets

Depuración, refinamiento y filtrado del corpus:

Geográfico Temporal Usuarios

Fabra et al., 2016

Page 54: IA + Big Data = problema + oportunidad

auto

ritas

54

HispaTweets

Dataset finalFabra et al., 2016

Page 55: IA + Big Data = problema + oportunidad

auto

ritas

Problema 2: Construir una aproximación

Herramientas

• n-gramas (caracteres, palabras)• Representaciones distribuidas• LDR

Page 56: IA + Big Data = problema + oportunidad

auto

ritas

56

Representaciones del estado del arte

Franco et al., 2015

Franco et al., 2015

Page 57: IA + Big Data = problema + oportunidad

auto

ritas

57

Representación de baja dimensionalidad (LDR)Rangel et al., 2016

Page 58: IA + Big Data = problema + oportunidad

auto

ritas

58

Características de LDRRangel et al., 2016

Page 59: IA + Big Data = problema + oportunidad

auto

ritas

59

Resultados con HispaBlogs

• Algoritmos de aprendizaje• Impacto del preprocesamiento en la precisión• Impacto del preprocesamiento en la dimensionalidad• Resultados de identificación• Análisis del error• Características más discriminantes• Análisis de costes

Rangel et al., 2016

Page 60: IA + Big Data = problema + oportunidad

auto

ritas

60

Algoritmos de aprendizajeRangel et al., 2016

Page 61: IA + Big Data = problema + oportunidad

auto

ritas

61

Impacto del preprocesamiento en la precisiónRangel et al., 2016

Page 62: IA + Big Data = problema + oportunidad

auto

ritas

62

Impacto del preprocesamiento en la dimensionalidadRangel et al., 2016

Page 63: IA + Big Data = problema + oportunidad

auto

ritas

63

ResultadosRangel et al., 2016

Page 64: IA + Big Data = problema + oportunidad

auto

ritas

64

Análisis del errorRangel et al., 2016

Page 65: IA + Big Data = problema + oportunidad

auto

ritas

65

Características más discriminantesRangel et al., 2016

Page 66: IA + Big Data = problema + oportunidad

auto

ritas

66

Características más discriminantesRangel et al., 2016

Page 67: IA + Big Data = problema + oportunidad

auto

ritas

67

Análisis de costesRangel et al., 2016

Page 68: IA + Big Data = problema + oportunidad

auto

ritas

68

Código NO optimizado: String+=String

https://s3-eu-west-1.amazonaws.com/autoritas.academy/StringPlusEqual.mp4

Page 69: IA + Big Data = problema + oportunidad

auto

ritas

69

Código optimizado: StringBuilder

https://s3-eu-west-1.amazonaws.com/autoritas.academy/StringBuilder.mp4

Page 70: IA + Big Data = problema + oportunidad

auto

ritas

70

Resultados con HispaTweets

?

Page 71: IA + Big Data = problema + oportunidad

auto

ritas

71

¿Y qué pasa con otros idiomas?Rangel et al., 2016

Page 72: IA + Big Data = problema + oportunidad

auto

ritas

Mundo Científico vs. Mundo Empresarial

Page 73: IA + Big Data = problema + oportunidad

auto

ritas

0

375000

750000

1125000

1500000

Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19

10.2

6 m

inut

es28

.83

min

utes

38.3

1 m

inut

es54

.03

min

utes

1.04

hou

rs1.

09 h

ours

2.66

hou

rs3.

25 h

ours

4.66

hou

rs4.

86 h

ours

5.08

hou

rs5.

13 h

ours

6.37

hou

rs6.

56 h

ours

6.82

hou

rs17

.88

hour

s4.

44 d

ays

5.19

day

s6.

68 d

ays

9.90

day

s11

.78

days

0

10

20

30

40

Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19

29.06

34.72

39.86

24.20

28.34 27.98

35.06

25.1427.03

38.58

31.25 32.34

7.87

24.6522.87

27.03

32.22

24.67

33.04

15.40

19.82

%

Precisión vs. coste computacionalRangel et al., 2013

Page 74: IA + Big Data = problema + oportunidad

auto

ritas

Grandes retos para el científico de datos...

...con grandes problemas más allá de la ciencia

Page 75: IA + Big Data = problema + oportunidad

auto

ritas

+Skills técnicos Skills “no-técnicos”

Page 76: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

SKILLS

TÉCNICOS

Aprendizaje Automático: Para

inferir nuevos modelos a partir de los datos

existentes, para dotar de inteligencia a nuestras

aplicaciones

Recuperación de Información: Para

acceder a las enormes cantidades de

información disponibles en Internet

Data Mining: Para identificar patrones válidos, novedosos,

potencialmente útiles y deseablemente

comprensibles a partir de los datos

Natural Language Processing: Porque el contenido textual de la Web está escrito en el

lenguaje humano

Data Visualization

Collective Intelligence

System Architecture

User eXperience

Social Investigation

Social Network Analysis

Page 77: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as SKILLS NO TÉCNICOShttp://t.co/D6KHALU3Zm

Page 78: IA + Big Data = problema + oportunidad

consulting, s.a.au

torit

as

http://es.slideshare.net/linkedin-talent-solutions/the-modern-recruiter-is-part-artist-part-scientist-infographic

La dualidad problema-oportunidad

de la combinación IA-Big Data,

tiene su contrapartida en la dualidad del

científico de datos respecto a la calidad de los

resultados (precisos y oportunos)

@kicorangel

Page 79: IA + Big Data = problema + oportunidad

auto

ritas

79

Referencias

• Rangel, F., Franco, M., Rosso, P. A Low Dimensionality Representation for Language Variety Identification. In: Proc. of the 17th. Int. Conf. on Intelligent Text Processing and Computational Linguistics (CICLing’16), Springer-Verlag, LNCS (??)

• Fabra, R. Language Variety Identification to Improve Geotagging. Master thesis in Artificial Intelligence, Pattern Recognition and Digital Imaging, Universitat Politècnica de València 2016?. Advisors: Francisco Rangel and Paolo Rosso.

• Franco, M., Rosso, P., Rangel, F. Language Variety Identification using Distributed Representations of Words and Documents. In: 6th. Int. Conf. of CLEF on Experimental IR meets Multilinguality, Multimodality, and Interaction. CLEF 2015, Springer-Verlag, LNCS(9283)

• Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at PAN 2013. In: Forner P., Navigli, R., Tufis, D. (Eds.). Note-book Papers of CLEF 2013 LABs and Workshops, CLEF-2013, CEUR-WS.org (1179)