big data e sentiment della rete - big data and sentiment of the internet
TRANSCRIPT
Big data e Sentiment della Rete
Stefano M. Iacus Dipartimento di Economia, Management e Metodi Quantitativi
Università degli Studi di Milano
Direttore: Data Science Lab -‐ UNIMI
Fondatore dello SpinOff universitario: Voices from the Blogs
In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)
Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.
Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.
La riproduzione delMarchio deve avvenireutilizzando solo file digitali.
Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.
Il Marchio - versione Blu Ateneo1.1
UNIVERSITÀ DEGLI STUDIDI MILANO
Indice
http://voicesfromtheblogs.com
Data Science Lab10 Ricercatori tra senior e junior
!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!
✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese
"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.
2003alba della civilità
“Dall’alba della civiltà al 2003 sono stati creati 5 exabyte di dati, tanti quanti ne creiamo oggi ogni 48 ore” (Eric Schmidt, Google, 2010)
“La complessità del Web ha ormai raggiunto quella della disposizione dei granelli di sabbia su una spiaggia o dei miliardi di stelle del firmamento” (Business Insider, UK)
Big data?
Big (perché tanL in volume)
TanL (per unità di tempo)
Non struNuraL (disordinaL, complessi, non adaO ad essere immediatamente analizzaL)
Chi li genera?
FonL AmministraLve o Aziendali
Transazioni economiche
Social media & Social Network
2013: 2,7 Miliardi di utenti su Internet, pari al 37,9% della popolazione mondiale
2014: 3,1 Miliardi di utenti, pari al 40,4% della popolazione
2015: +316 Milioni di nuovi utenti (stima), pari a +11,6 % di incremento
Fonte:
https://clt.vtc.edu.hk/wp-‐content/uploads/2014/10/What-‐happen-‐in-‐the-‐internet-‐per-‐minute-‐300dpi.jpg
Cosa accade online ogni 60 secondi?
Fonte: Center for Learning and Teaching, 2014
Possiamo ignorare tutto questo?
Sex & the data
I Big data sono come il sesso al tempo delle mele: tutti ne parlano, nessuno sa realmente come si fa, tutti credono che gli altri lo facciano, quindi tutti dicono di farlo…
Wired Magazine (2008): “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”.
Big data: i “credenti”
Big data: i “detrattori”
Financial Times (2014): “Big Data: Are We Making a Big Mistake?”
Cosa è Google Flu Trend?
Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”
Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”
Cosa è andato storto?
http://voicesfromtheblogs.com
Testo
Overfitting
per due punti passa esattamente una retta
y = a + b*x
Testo
http://voicesfromtheblogs.com
Testo
Overfitting
per tre punti passa esattamente una parabola
Testo
Testo
y = a + b*x+c*x2
http://voicesfromtheblogs.com
Overfitting
per tre punti passa esattamente una parabola
Testo
Testo
y = a + b*x+c*x2
ma anche una retta può essere utile!
y = a + b*x
http://voicesfromtheblogs.com
Quale modello prevede meglio il prossimo punto?
Testo
Testo
previsione
previsione
???
http://voicesfromtheblogs.com
Rasoio di Occam o principio di parsimonia
“a parità di condizioni, il modello più semplice è il migliore”
http://voicesfromtheblogs.com
Quale modello prevede meglio il prossimo punto?
Testo
Testo
previsione
previsione
???
http://voicesfromtheblogs.com
Quale modello prevede meglio il prossimo punto?
Testo
Testo
previsione
previsione
!!!
http://voicesfromtheblogs.com
Quale modello prevede meglio il prossimo punto?
Testo
Testo
previsione
previsione
errore di!previsione
http://voicesfromtheblogs.com
Quale modello prevede meglio il prossimo punto?
Testo
Testo
previsione
previsione
Google !Flu Trend
http://voicesfromtheblogs.com
Overfitting
Testo
Testo
0 2 4 6 8 10
02
46
810
12
x
y
la retta
http://voicesfromtheblogs.com
Overfitting
Testo
Testo
0 2 4 6 8 10
02
46
810
12
x
y
la cubica
la retta
http://voicesfromtheblogs.com
Overfitting
Testo
Testo
0 2 4 6 8 10
02
46
810
12
x
y
la cubica
la retta
Google!Flu Trend!
GoogleFlu Trend!
“Big data is not about the data” (Gary King, Harvard University)
from Noise to Signal
“Big data is not about the data”
https://s-‐media-‐cache-‐ak0.pinimg.com/236x/5d/18/f7/5d18f7ac8ac36ec391d8a0a1bf5f5f58.jpg
from Noise to Signal
In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)
Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.
Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.
La riproduzione delMarchio deve avvenireutilizzando solo file digitali.
Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.
Il Marchio - versione Blu Ateneo1.1
UNIVERSITÀ DEGLI STUDIDI MILANO
Indice
http://voicesfromtheblogs.com
Data Science Lab10 Ricercatori tra senior e junior
!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!
✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese
"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.
Ricerca scientifica
Big data is about Science
In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)
Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.
Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.
La riproduzione delMarchio deve avvenireutilizzando solo file digitali.
Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.
Il Marchio - versione Blu Ateneo1.1
UNIVERSITÀ DEGLI STUDIDI MILANO
Indice
http://voicesfromtheblogs.com
Data Science Lab10 Ricercatori tra senior e junior
!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!
✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese
"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.
Possibili applicazioni
http://voicesfromtheblogs.comTw
eetin
g du
ring
the
day Spazio
Mobilità giornaliera
50
100
150
200Tweet
25/04/2014
http://voicesfromtheblogs.com
200
400
600Tweet
08/04/2014
Salone del Mobile 25 Aprile
200400600800
Tweet
21/02/2014
Fier
a M
ilano
Rho
Piazza del Duomo
Forum di Assago
Concerti
Spazio
INVALSI national test: comments on hourly basis
*Source:VfB exclusively for Invalsi, June 2013. Posts: around 40,000
www.voicesfromtheblogs.com | we capture the sentiment of the net
Peak while test was underway!
http://voicesfromtheblogs.com
Tempo
http://voicesfromtheblogs.com
Viaggio nel tempo
Tempo t0Passato
Guardare al passato Attività di monitoraggio
*Source: VfB exclusively for Juventus FC, 08 May 2013. (http://www.juventus.com/juve/it/news/Juve+la+ricetta+della+felicita ). Analyzed tweets: 430.000
iHappy Pre Championship (until 05/05/2013 h. 16.00)
iHappy Post Championship (from 05/05/2013 h. 16.00 till
06/05/2013 h. 08.00)
Happiness in Italy after the Juventus Championship
happy
unhappy
happy
unhappy
www.voicesfromtheblogs.com | we capture the sentiment of the net
http://voicesfromtheblogs.com
Assieme: tempo e spazio
Moo
d be
fore
& a
fter
eve
nt!
acro
ss t
he c
ount
ry
Ma come parli?
Come non analizzare i Social Media
Why human and not ontological dictionaries?
๏ “What a nice rip-off” (“che bella fregatura”)
http://voicesfromtheblogs.com
We capture the sentiment of the net
50% positive & 50% negative=
misclassification
100% negative=
no misclassification
Semantic rules do work ? ๏ Language evolves continuously: one cannot code all
possible semantic rules unless reading the posts !!!
http://voicesfromtheblogs.com
We capture the sentiment of the netUsare solo tecniche supervised
Guardare ai dati Guardare nei dati
http://voicesfromtheblogs.com
NO: dizionari ontologici o algoritmi NLP
La sfida della Sentiment Analysis: il linguaggio
http://voicesfromtheblogs.com
Testo“Questo film promette bene. Sembra avere una bellissima trama, un
cast d’eccezione e attori di primo piano e Stallone dà il massimo di sé
stesso. Ma non regge”
5 termini positivi vs 1 negativo
"Ibis redibis numquam peribis in bello", che si può tradurre sia come
"andrai, ritornerai, non morirai in guerra", ma anche all’opposto,
"andrai, non ritornerai, morirai in guerra" contestualizzazione
“ragazza stufa scappa di casa… i genitori muoiono di freddo”giochi di parole
“non esiste un vento favorevole per il marinaio che non sa dove andare” (Seneca) frasi
metaforiche
Come non analizzare i Social Media
NO: dizionari ontologici o algoritmi NLPLa sfida della Sentiment Analysis: il linguaggio
iSA una tecnologia brevettata da
ricercatori UNIMI
Elezioni presidenziali americane 2012
Dato reale: +3,2% Dato stimato (UNIMI): +3,5% Dato stimato (Gnip): +15%
Elezioni amministrative italiane 2013
Sentimeter (UNIMI): errore di previsione più basso di quello dei sondaggi
ISIS vista dalla rete
Circa 3 milioni di testi in lingua araba analizzati tra luglio e ottobre 2014
Si osserva una correlazione tra “foreign fighters” e supporto a ISIS in ciascun paese
Gradimento visitatori Expo
Wired Next Index
“Big data is not about the data”
Big data is about Science @ UNIMI
https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0CAcQjRxqFQoTCNv-‐88T5lMgC
FYW4GgodDmEBdA&url=http%3A%2F%2Fwww.iconsdb.com%2Fwhite-‐icons%2Ftwitter-‐icon.html&psig=AFQjCNEA5CXeoepd-‐SVtvZmWFTAo2Kr97A&ust=1443365474981733
Grazie!In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)
Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.
Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.
La riproduzione delMarchio deve avvenireutilizzando solo file digitali.
Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.
Il Marchio - versione Blu Ateneo1.1
UNIVERSITÀ DEGLI STUDIDI MILANO
Indice
http://voicesfromtheblogs.com
Data Science Lab10 Ricercatori tra senior e junior
!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!
✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese
"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.
@blogsvoices