big data e sentiment della rete - big data and sentiment of the internet

55
Big data e Sentiment della Rete Stefano M. Iacus Dipartimento di Economia, Management e Metodi Quantitativi Università degli Studi di Milano Direttore: Data Science Lab UNIMI Fondatore dello SpinOff universitario: Voices from the Blogs

Upload: stefano-maria-iacus

Post on 16-Apr-2017

213 views

Category:

Social Media


0 download

TRANSCRIPT

Page 1: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Big  data  e  Sentiment  della  Rete

Stefano  M.  Iacus  Dipartimento  di  Economia,  Management  e  Metodi  Quantitativi  

Università  degli  Studi  di  Milano  

Direttore:  Data  Science  Lab  -­‐  UNIMI  

Fondatore  dello  SpinOff  universitario:  Voices  from  the  Blogs

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

Page 2: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

2003alba  della  civilità

“Dall’alba  della  civiltà  al  2003  sono  stati  creati  5  exabyte  di  dati,  tanti  quanti  ne  creiamo  oggi  ogni  48  ore”  (Eric  Schmidt,  Google,  2010)

Page 3: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

“La   complessità   del  Web   ha   ormai  raggiunto   quella   della   disposizione  dei   granelli   di   sabbia   su   una  spiaggia   o   dei  miliardi   di   stelle   del  firmamento”    (Business  Insider,  UK)

Page 4: Big data e Sentiment della Rete - Big data and Sentiment of the Internet
Page 5: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Big  data?

Page 6: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Big  (perché  tanL  in  volume)  

TanL  (per  unità  di  tempo)  

Non  struNuraL  (disordinaL,  complessi,  non  adaO  ad  essere  immediatamente  analizzaL)

Page 7: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Chi  li  genera?

Page 8: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

FonL  AmministraLve  o  Aziendali    

Transazioni  economiche  

Social  media  &  Social  Network

Page 9: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

2013:  2,7  Miliardi  di  utenti  su  Internet,  pari  al  37,9%  della  popolazione  mondiale  

2014:  3,1  Miliardi  di  utenti,  pari  al  40,4%  della  popolazione  

2015:  +316  Milioni  di  nuovi  utenti  (stima),  pari  a  +11,6  %  di  incremento

Fonte:

Page 10: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

https://clt.vtc.edu.hk/wp-­‐content/uploads/2014/10/What-­‐happen-­‐in-­‐the-­‐internet-­‐per-­‐minute-­‐300dpi.jpg

Cosa  accade  online  ogni  60  secondi?

Fonte:  Center  for  Learning  and  Teaching,  2014

Page 11: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Possiamo  ignorare  tutto  questo?

Page 12: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Sex  &  the  data

I  Big  data   sono   come   il   sesso  al   tempo  delle  mele:  tutti   ne  parlano,  nessuno   sa   realmente   come   si   fa,  tutti   credono   che   gli   altri   lo   facciano,   quindi   tutti  dicono  di  farlo…

Page 13: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Wired Magazine (2008): “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”.

Big  data:  i  “credenti”

Page 14: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Big  data:  i  “detrattori”

Financial Times (2014): “Big Data: Are We Making a Big Mistake?”

Page 15: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Cosa  è  Google  Flu  Trend?

Page 16: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”

Page 17: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”

Page 18: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Cosa  è  andato  storto?

Page 19: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Testo

Overfitting

per due punti passa esattamente una retta

y = a + b*x

Testo

Page 20: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Testo

Overfitting

per tre punti passa esattamente una parabola

Testo

Testo

y = a + b*x+c*x2

Page 21: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Overfitting

per tre punti passa esattamente una parabola

Testo

Testo

y = a + b*x+c*x2

ma anche una retta può essere utile!

y = a + b*x

Page 22: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

???

Page 23: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Rasoio di Occam o principio di parsimonia

“a parità di condizioni, il modello più semplice è il migliore”

Page 24: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

???

Page 25: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

!!!

Page 26: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

errore di!previsione

Page 27: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

Google !Flu Trend

Page 28: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la retta

Page 29: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la cubica

la retta

Page 30: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la cubica

la retta

Google!Flu Trend!

Page 31: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

GoogleFlu Trend!

Page 32: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

“Big  data  is  not  about  the  data”  (Gary  King,  Harvard  University)

Page 33: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

from Noise to Signal

“Big  data  is  not  about  the  data”

Page 34: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

https://s-­‐media-­‐cache-­‐ak0.pinimg.com/236x/5d/18/f7/5d18f7ac8ac36ec391d8a0a1bf5f5f58.jpg

from Noise to Signal

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

Ricerca  scientifica

Big  data  is  about  Science

Page 35: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

Page 36: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Possibili  applicazioni

Page 37: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.comTw

eetin

g du

ring

the

day Spazio

Mobilità giornaliera

Page 38: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

50

100

150

200Tweet

25/04/2014

http://voicesfromtheblogs.com

200

400

600Tweet

08/04/2014

Salone del Mobile 25 Aprile

200400600800

Tweet

21/02/2014

Fier

a M

ilano

Rho

Piazza del Duomo

Forum di Assago

Concerti

Spazio

Page 39: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

INVALSI national test: comments on hourly basis

*Source:VfB exclusively for Invalsi, June 2013. Posts: around 40,000

www.voicesfromtheblogs.com | we capture the sentiment of the net

Peak while test was underway!

http://voicesfromtheblogs.com

Tempo

Page 40: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Viaggio nel tempo

Tempo t0Passato

Guardare al passato Attività di monitoraggio

Page 41: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

*Source: VfB exclusively for Juventus FC, 08 May 2013. (http://www.juventus.com/juve/it/news/Juve+la+ricetta+della+felicita ). Analyzed tweets: 430.000

iHappy Pre Championship (until 05/05/2013 h. 16.00)

iHappy Post Championship (from 05/05/2013 h. 16.00 till

06/05/2013 h. 08.00)

Happiness in Italy after the Juventus Championship

happy

unhappy

happy

unhappy

www.voicesfromtheblogs.com | we capture the sentiment of the net

http://voicesfromtheblogs.com

Assieme: tempo e spazio

Moo

d be

fore

& a

fter

eve

nt!

acro

ss t

he c

ount

ry

Page 42: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Ma  come  parli?

Page 43: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Come non analizzare i Social Media

Why human and not ontological dictionaries?

๏ “What a nice rip-off” (“che bella fregatura”)

http://voicesfromtheblogs.com

We capture the sentiment of the net

50% positive & 50% negative=

misclassification

100% negative=

no misclassification

Semantic rules do work ? ๏ Language evolves continuously: one cannot code all

possible semantic rules unless reading the posts !!!

http://voicesfromtheblogs.com

We capture the sentiment of the netUsare solo tecniche supervised

Guardare ai dati Guardare nei dati

http://voicesfromtheblogs.com

NO: dizionari ontologici o algoritmi NLP

La  sfida  della  Sentiment  Analysis:  il  linguaggio

Page 44: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

http://voicesfromtheblogs.com

Testo“Questo film promette bene. Sembra avere una bellissima trama, un

cast d’eccezione e attori di primo piano e Stallone dà il massimo di sé

stesso. Ma non regge”

5 termini positivi vs 1 negativo

"Ibis redibis numquam peribis in bello", che si può tradurre sia come

"andrai, ritornerai, non morirai in guerra", ma anche all’opposto,

"andrai, non ritornerai, morirai in guerra" contestualizzazione

“ragazza stufa scappa di casa… i genitori muoiono di freddo”giochi di parole

“non esiste un vento favorevole per il marinaio che non sa dove andare” (Seneca) frasi

metaforiche

Come non analizzare i Social Media

NO: dizionari ontologici o algoritmi NLPLa  sfida  della  Sentiment  Analysis:  il  linguaggio

Page 45: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

iSA  una  tecnologia  brevettata  da  

ricercatori  UNIMI

Page 46: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Elezioni  presidenziali  americane  2012

Dato  reale:  +3,2%  Dato  stimato  (UNIMI):  +3,5%  Dato  stimato  (Gnip):  +15%

Page 47: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Elezioni  amministrative  italiane  2013

Sentimeter  (UNIMI):  errore  di  previsione  più  basso  di  quello  dei  sondaggi

Page 48: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

ISIS  vista  dalla  rete

Circa  3  milioni  di  testi  in  lingua  araba  analizzati  tra  luglio  e  ottobre  2014

Page 49: Big data e Sentiment della Rete - Big data and Sentiment of the Internet
Page 50: Big data e Sentiment della Rete - Big data and Sentiment of the Internet
Page 51: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Si   osserva   una  correlazione   tra  “foreign   fighters”  e   supporto   a   ISIS  in  ciascun  paese

Page 52: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Gradimento  visitatori  Expo

Page 53: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

Wired  Next  Index

Page 54: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

“Big  data  is  not  about  the  data”

Big  data  is  about  Science  @  UNIMI

Page 55: Big data e Sentiment della Rete - Big data and Sentiment of the Internet

https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0CAcQjRxqFQoTCNv-­‐88T5lMgC

FYW4GgodDmEBdA&url=http%3A%2F%2Fwww.iconsdb.com%2Fwhite-­‐icons%2Ftwitter-­‐icon.html&psig=AFQjCNEA5CXeoepd-­‐SVtvZmWFTAo2Kr97A&ust=1443365474981733

Grazie!In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

@blogsvoices