ia + big data = problema + oportunidad
TRANSCRIPT
IA + big data = problema + oportunidad
AUTORITASAutoritas es una consultora tecnológica con profesionales multidisciplinares de diferentes países del mundo:- Ingenieros en Informática y Telecomunicaciones- Psicólogos- Economistas- Abogados- Politólogos
Nuestra sede central está en Madrid (España), y tenemos oficinas en Argentina, Brasil, Chile, México, Panamá y Reino Unido.
AUTORITAS
Nos especializamos en :- Español- Portugués- Inglés
Estamos empezando a trabajar con:- Italiano- Alemán- Francés
AUTORITAS
La formación y la comunicación son muy importantes para nosotros.
La Escucha Activa es una nueva disciplina y nosotros estamos comprometidos con su difusión y formación a los profesionales interesados en el campo.
Iberolabs
AUTORITAS
En Autoritas hacemos una investigación activa en colaboración con reputadas universidades y centros de investigación.
‣ 2008-2009: Avanza AL4Tour (ITC/464/2008)
Objective: Develop an Active Listening platform specialized in the Tourism Sector
Budget: 744,681.83 €
‣ 2011-2012: Avanza Competitividad HCE (TSI-020100-2011-156)
Objective: Specialize the Active Listening platform in the Healthcare Sector by developing an automatic coder of diseases expressed in natural language into ICD-9 MC codes.
Budget: 432,129.25€
‣ 2012: Innpacto Ecoportunity (IPT-2012-1220-430000)
Objective: Combine macroeconomic indicators with social media information to predict trends.
Budget: 576,629.00€
AUTORITAS
consulting, s.a.au
torit
as
7
@kicorangel
www.kicorangel.com
auto
ritas
8
¿Qué es Social Business Intelligence?
http
://hd
wal
l.co/
face
book
-wal
lpap
er-d
igg/
DATOS -> INFORMACIÓN -> CONOCIMIENTO -> INTELIGENCIA
Herramientas ymétodos
Interpretaciónhumana
Aplicaciónestratégica
auto
ritas
9
No sólo consiste en responder preguntas...
...sino también en saber qué nuevas preguntas plantear
auto
ritas
10
“Cuando eres capaz de ver lo sutil, es fácil ganar”
Sun Tzu
auto
ritas
11
Ciclo de Inteligencia
auto
ritas
12
Recuperación de información
...y limpieza
auto
ritas
13
OBJETIVO: Recuperar todo lo que hay que recuperar y sin recuperar nada que no
se deba recuperar
consulting, s.a.au
torit
as
• > 500 millones de usuarios de Facebook
• > 150 millones de usuarios de Twitter• > 90 millones de Webs• > 150 millones de blogs• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN DESESTRUCTURADA
Algunas cifras... (muy antiguas)
consulting, s.a.au
torit
as
Orígenes de información (canales)
consulting, s.a.au
torit
as
API vs. Crawler
‣API restringe el acceso a los datos: Facilitan sólo una muestra de la información existente y accesible a través de buscador‣API restringe la cantidad de peticiones realizables‣Crawler requiere infraestructura y solución a problemas IR (periodicidad, fechas, idiomas, almacenamiento...)‣Crawler puede generar problemas legales
API gratuita vs. pago
‣Restricción de resultados: las APIs gratuítas restringen en exceso los resultados frente a la interfaz del buscador‣Limitaciones de licencia de las APIs gratuítas, no permitiendo por ejemplo la reordenación, mezclado y almacenamiento de datos
consulting, s.a.au
torit
as(Re)Clasificar lo recuperado
¿Qué pasa cuando entra una noticia desde un buscador generalista?
¿Qué canal es la url que se enlaza desde otro canal?
¿Cómo diferenciar un blog de una web corporativa?
¿Cómo determinar de qué dominio es una determinada página?
Identificar
Acotar
Clasificar
Desambiguar
consulting, s.a.au
torit
as
Sección de anuncios sin
relevancia para el contenido
Sección de última hora que
distorsiona la semántica de la
página
Contenido útil
Recuperar contenido útil
consulting, s.a.au
torit
as
Inglésestoy sin internet ¬¨¬¨ fuuuuck!!!
Finlandés... euskocaja, como euskolabel, euskotren, euskomueble... XDDD
PortuguésFlowah Powah!
AlemánVierrrrrrrrrrrrnes, egunon!!
Modelos del lenguaje vs. n-Gramms vs. Machine Learning
Filtrar por idioma
consulting, s.a.au
torit
as
Geografía de origen vs. geografía de contenido vs. geografía de perfil
Filtrar por geografía
consulting, s.a.au
torit
as
resultados
elimina url prescindibles
filtra palabras
marca url’s como SpamElimina url’s
Quita de la ‘vista’ los antitesauros
filtra #hastags
filtra influenciadores
filtra localizaciones
Otros filtros
consulting, s.a.au
torit
as
Creo que he resuelto el:
consulting, s.a.au
torit
as
Evaluación de la Recuperación de Información...
...en la ciencia
consulting, s.a.au
torit
as
7.000 recuperados 54 incorrectos 99.23% precisión
3.000 recuperados50 no recuperados
98.36% alcance
Evaluación de la Recuperación de Información...
...en la empresa
¡¡Estamos perdiendo
credibilidad!!
consulting, s.a.au
torit
as
Pero es que... la recuperación de
información NO es una contabilidad
No me des excusas...
consulting, s.a.au
torit
as
=10100¡¡Pero Google
siempre exagera!
...porque Google dice...
consulting, s.a.au
torit
asAnte un “fallo” técnico lo primero que se busca......no es la solución, es al culpable
Técnico
consulting, s.a.au
torit
as
28
Extracción de conocimiento...
auto
ritas
29
No sólo consiste en responder preguntas...
...sino también en saber qué nuevas preguntas plantear
auto
ritas
30
¿Qué? -> E.g. Conceptualización de marcas
¿De qué está hablando la gente?
auto
ritas
31
¿De qué hablan, de la consonante, del lenguaje de programación o de la empresa de telecomunicaciones gallega?
auto
ritas
32
¿Cuándo? -> E.g. Gestión de crisis
¿Cuándo suceden las cosas?
auto
ritas
33
Si la fecha va en la url es fácil saberla
Eso es relativo, esta URL es de Julio o de
Enero:http://xxx/07/01/2010/
crawler-403-forbidden.html
auto
ritas
34
¿Dónde? -> Varias perspectivas
¿Dónde ocurre una conversación?
¿De dónde se habla en una conversación?
auto
ritas
35
¿Cómo? -> No sólo sentiment analysis
La polaridad es sólo una dimensión, la emocional, la de valores, DAFO... todas ellas responden a la cuestión ¿cómo?
auto
ritas
36
Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?
auto
ritas
37
Un ejemplo: “La prima de riesgo en España está a 235”¿Positivo, negativo, neutro o none?
Mi pregunta: ¿Para quién?- ¿Para el presidente del país?- ¿Para el líder de la oposición?- ¿Para el director del Banco de España?- ¿Para el inversor extranjero?- ¿Para el capitalista nacional?- ¿Para el que tiene una hipoteca?
auto
ritas
38
¿Quién? -> Análisis de Red Social
Si quiero transmitir con éxito un mensaje, ¿quién me puede ayudar?
Si hay un conflicto,¿a quién tengo que vigilar?
auto
ritas
39
EMOTIONAL PROFILE
GENDERAGE GROUP
NAT
IVE
LA
NG
UA
GE
... ¡y mucho mucho más!
¿Por qué? -> Author Profiling
auto
ritas
40
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES GENERALES
216.000 documentos analizados (picos de 120 docs/seg)‣Tweets: 176.815‣Posts: 7.034‣News: 2013‣Facebook: 2.184‣Multimedia: 671
283.000 etiquetas generadas1.900.000 términos indexados
-Elevado número usuarios concurrentes
Por supuesto, en ¡¡tiempo real!!
auto
ritas
41
ORDENLA SOLUCIÓN
ES EL BIG DATA
¡Todo el mundo lo dice!
auto
ritas
42
VOLUMEN
VELOCIDAD
VARIEDAD
VIRALIDAD
VISCOSIDAD
¡Busca a Neo!
¡¡¡NOOOO!!! El Big Data es el problema...
auto
ritas
43
El big data es la solución, el problema... y la oportunidad
https://github.com/autoritas/RD-Lab/blob/master/doc/presentations/ataque.mov
auto
ritas
44
Veamos un problema concreto...
auto
ritas
45
Identificación de Variedad del Lenguaje
auto
ritas
Doble problema
Materia prima Herramientas
auto
ritas
Problema 1: Generar datasets
Materia prima
• HispaBlogs• HispaTweets
auto
ritas
48
HispaBlogsFranco et al., 2015
auto
ritas
49
HispaTweets
Proceso de construcción del corpus
Fabra et al., 2016
auto
ritas
50
HispaTweets
Proceso de obtención de coordenadas geográficas
Proceso de construcción del corpus
Fabra et al., 2016
auto
ritas
51
HispaTweets
Del tuit al usuario, ...y su representatividad poblacional
Fabra et al., 2016
auto
ritas
52
HispaTweets
Dataset en brutoFabra et al., 2016
auto
ritas
53
HispaTweets
Depuración, refinamiento y filtrado del corpus:
Geográfico Temporal Usuarios
Fabra et al., 2016
auto
ritas
54
HispaTweets
Dataset finalFabra et al., 2016
auto
ritas
Problema 2: Construir una aproximación
Herramientas
• n-gramas (caracteres, palabras)• Representaciones distribuidas• LDR
auto
ritas
56
Representaciones del estado del arte
Franco et al., 2015
Franco et al., 2015
auto
ritas
57
Representación de baja dimensionalidad (LDR)Rangel et al., 2016
auto
ritas
58
Características de LDRRangel et al., 2016
auto
ritas
59
Resultados con HispaBlogs
• Algoritmos de aprendizaje• Impacto del preprocesamiento en la precisión• Impacto del preprocesamiento en la dimensionalidad• Resultados de identificación• Análisis del error• Características más discriminantes• Análisis de costes
Rangel et al., 2016
auto
ritas
60
Algoritmos de aprendizajeRangel et al., 2016
auto
ritas
61
Impacto del preprocesamiento en la precisiónRangel et al., 2016
auto
ritas
62
Impacto del preprocesamiento en la dimensionalidadRangel et al., 2016
auto
ritas
63
ResultadosRangel et al., 2016
auto
ritas
64
Análisis del errorRangel et al., 2016
auto
ritas
65
Características más discriminantesRangel et al., 2016
auto
ritas
66
Características más discriminantesRangel et al., 2016
auto
ritas
67
Análisis de costesRangel et al., 2016
auto
ritas
68
Código NO optimizado: String+=String
https://s3-eu-west-1.amazonaws.com/autoritas.academy/StringPlusEqual.mp4
auto
ritas
69
Código optimizado: StringBuilder
https://s3-eu-west-1.amazonaws.com/autoritas.academy/StringBuilder.mp4
auto
ritas
70
Resultados con HispaTweets
?
auto
ritas
71
¿Y qué pasa con otros idiomas?Rangel et al., 2016
auto
ritas
Mundo Científico vs. Mundo Empresarial
auto
ritas
0
375000
750000
1125000
1500000
Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19
10.2
6 m
inut
es28
.83
min
utes
38.3
1 m
inut
es54
.03
min
utes
1.04
hou
rs1.
09 h
ours
2.66
hou
rs3.
25 h
ours
4.66
hou
rs4.
86 h
ours
5.08
hou
rs5.
13 h
ours
6.37
hou
rs6.
56 h
ours
6.82
hou
rs17
.88
hour
s4.
44 d
ays
5.19
day
s6.
68 d
ays
9.90
day
s11
.78
days
0
10
20
30
40
Approach 1 Approach 4 Approach 7 Approach 10 Approach 13 Approach 16 Approach 19
29.06
34.72
39.86
24.20
28.34 27.98
35.06
25.1427.03
38.58
31.25 32.34
7.87
24.6522.87
27.03
32.22
24.67
33.04
15.40
19.82
%
Precisión vs. coste computacionalRangel et al., 2013
auto
ritas
Grandes retos para el científico de datos...
...con grandes problemas más allá de la ciencia
auto
ritas
+Skills técnicos Skills “no-técnicos”
consulting, s.a.au
torit
as
SKILLS
TÉCNICOS
Aprendizaje Automático: Para
inferir nuevos modelos a partir de los datos
existentes, para dotar de inteligencia a nuestras
aplicaciones
Recuperación de Información: Para
acceder a las enormes cantidades de
información disponibles en Internet
Data Mining: Para identificar patrones válidos, novedosos,
potencialmente útiles y deseablemente
comprensibles a partir de los datos
Natural Language Processing: Porque el contenido textual de la Web está escrito en el
lenguaje humano
Data Visualization
Collective Intelligence
System Architecture
User eXperience
Social Investigation
Social Network Analysis
consulting, s.a.au
torit
as SKILLS NO TÉCNICOShttp://t.co/D6KHALU3Zm
consulting, s.a.au
torit
as
http://es.slideshare.net/linkedin-talent-solutions/the-modern-recruiter-is-part-artist-part-scientist-infographic
La dualidad problema-oportunidad
de la combinación IA-Big Data,
tiene su contrapartida en la dualidad del
científico de datos respecto a la calidad de los
resultados (precisos y oportunos)
@kicorangel
auto
ritas
79
Referencias
• Rangel, F., Franco, M., Rosso, P. A Low Dimensionality Representation for Language Variety Identification. In: Proc. of the 17th. Int. Conf. on Intelligent Text Processing and Computational Linguistics (CICLing’16), Springer-Verlag, LNCS (??)
• Fabra, R. Language Variety Identification to Improve Geotagging. Master thesis in Artificial Intelligence, Pattern Recognition and Digital Imaging, Universitat Politècnica de València 2016?. Advisors: Francisco Rangel and Paolo Rosso.
• Franco, M., Rosso, P., Rangel, F. Language Variety Identification using Distributed Representations of Words and Documents. In: 6th. Int. Conf. of CLEF on Experimental IR meets Multilinguality, Multimodality, and Interaction. CLEF 2015, Springer-Verlag, LNCS(9283)
• Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at PAN 2013. In: Forner P., Navigli, R., Tufis, D. (Eds.). Note-book Papers of CLEF 2013 LABs and Workshops, CLEF-2013, CEUR-WS.org (1179)