big data e sentiment della rete - big data and sentiment of the internet

Post on 16-Apr-2017

213 Views

Category:

Social Media

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big  data  e  Sentiment  della  Rete

Stefano  M.  Iacus  Dipartimento  di  Economia,  Management  e  Metodi  Quantitativi  

Università  degli  Studi  di  Milano  

Direttore:  Data  Science  Lab  -­‐  UNIMI  

Fondatore  dello  SpinOff  universitario:  Voices  from  the  Blogs

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

2003alba  della  civilità

“Dall’alba  della  civiltà  al  2003  sono  stati  creati  5  exabyte  di  dati,  tanti  quanti  ne  creiamo  oggi  ogni  48  ore”  (Eric  Schmidt,  Google,  2010)

“La   complessità   del  Web   ha   ormai  raggiunto   quella   della   disposizione  dei   granelli   di   sabbia   su   una  spiaggia   o   dei  miliardi   di   stelle   del  firmamento”    (Business  Insider,  UK)

Big  data?

Big  (perché  tanL  in  volume)  

TanL  (per  unità  di  tempo)  

Non  struNuraL  (disordinaL,  complessi,  non  adaO  ad  essere  immediatamente  analizzaL)

Chi  li  genera?

FonL  AmministraLve  o  Aziendali    

Transazioni  economiche  

Social  media  &  Social  Network

2013:  2,7  Miliardi  di  utenti  su  Internet,  pari  al  37,9%  della  popolazione  mondiale  

2014:  3,1  Miliardi  di  utenti,  pari  al  40,4%  della  popolazione  

2015:  +316  Milioni  di  nuovi  utenti  (stima),  pari  a  +11,6  %  di  incremento

Fonte:

https://clt.vtc.edu.hk/wp-­‐content/uploads/2014/10/What-­‐happen-­‐in-­‐the-­‐internet-­‐per-­‐minute-­‐300dpi.jpg

Cosa  accade  online  ogni  60  secondi?

Fonte:  Center  for  Learning  and  Teaching,  2014

Possiamo  ignorare  tutto  questo?

Sex  &  the  data

I  Big  data   sono   come   il   sesso  al   tempo  delle  mele:  tutti   ne  parlano,  nessuno   sa   realmente   come   si   fa,  tutti   credono   che   gli   altri   lo   facciano,   quindi   tutti  dicono  di  farlo…

Wired Magazine (2008): “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”.

Big  data:  i  “credenti”

Big  data:  i  “detrattori”

Financial Times (2014): “Big Data: Are We Making a Big Mistake?”

Cosa  è  Google  Flu  Trend?

Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”

Google (2009): “Come indicatore in tempo reale, GFT ha dimostrato di essere più utile delle statistiche ufficiali del Governo sulla diffusione dell’influenza a causa dei ritardi con cui queste vengono fornite”

Cosa  è  andato  storto?

http://voicesfromtheblogs.com

Testo

Overfitting

per due punti passa esattamente una retta

y = a + b*x

Testo

http://voicesfromtheblogs.com

Testo

Overfitting

per tre punti passa esattamente una parabola

Testo

Testo

y = a + b*x+c*x2

http://voicesfromtheblogs.com

Overfitting

per tre punti passa esattamente una parabola

Testo

Testo

y = a + b*x+c*x2

ma anche una retta può essere utile!

y = a + b*x

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

???

http://voicesfromtheblogs.com

Rasoio di Occam o principio di parsimonia

“a parità di condizioni, il modello più semplice è il migliore”

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

???

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

!!!

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

errore di!previsione

http://voicesfromtheblogs.com

Quale modello prevede meglio il prossimo punto?

Testo

Testo

previsione

previsione

Google !Flu Trend

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la retta

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la cubica

la retta

http://voicesfromtheblogs.com

Overfitting

Testo

Testo

0 2 4 6 8 10

02

46

810

12

x

y

la cubica

la retta

Google!Flu Trend!

GoogleFlu Trend!

“Big  data  is  not  about  the  data”  (Gary  King,  Harvard  University)

from Noise to Signal

“Big  data  is  not  about  the  data”

https://s-­‐media-­‐cache-­‐ak0.pinimg.com/236x/5d/18/f7/5d18f7ac8ac36ec391d8a0a1bf5f5f58.jpg

from Noise to Signal

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

Ricerca  scientifica

Big  data  is  about  Science

In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

Possibili  applicazioni

http://voicesfromtheblogs.comTw

eetin

g du

ring

the

day Spazio

Mobilità giornaliera

50

100

150

200Tweet

25/04/2014

http://voicesfromtheblogs.com

200

400

600Tweet

08/04/2014

Salone del Mobile 25 Aprile

200400600800

Tweet

21/02/2014

Fier

a M

ilano

Rho

Piazza del Duomo

Forum di Assago

Concerti

Spazio

INVALSI national test: comments on hourly basis

*Source:VfB exclusively for Invalsi, June 2013. Posts: around 40,000

www.voicesfromtheblogs.com | we capture the sentiment of the net

Peak while test was underway!

http://voicesfromtheblogs.com

Tempo

http://voicesfromtheblogs.com

Viaggio nel tempo

Tempo t0Passato

Guardare al passato Attività di monitoraggio

*Source: VfB exclusively for Juventus FC, 08 May 2013. (http://www.juventus.com/juve/it/news/Juve+la+ricetta+della+felicita ). Analyzed tweets: 430.000

iHappy Pre Championship (until 05/05/2013 h. 16.00)

iHappy Post Championship (from 05/05/2013 h. 16.00 till

06/05/2013 h. 08.00)

Happiness in Italy after the Juventus Championship

happy

unhappy

happy

unhappy

www.voicesfromtheblogs.com | we capture the sentiment of the net

http://voicesfromtheblogs.com

Assieme: tempo e spazio

Moo

d be

fore

& a

fter

eve

nt!

acro

ss t

he c

ount

ry

Ma  come  parli?

Come non analizzare i Social Media

Why human and not ontological dictionaries?

๏ “What a nice rip-off” (“che bella fregatura”)

http://voicesfromtheblogs.com

We capture the sentiment of the net

50% positive & 50% negative=

misclassification

100% negative=

no misclassification

Semantic rules do work ? ๏ Language evolves continuously: one cannot code all

possible semantic rules unless reading the posts !!!

http://voicesfromtheblogs.com

We capture the sentiment of the netUsare solo tecniche supervised

Guardare ai dati Guardare nei dati

http://voicesfromtheblogs.com

NO: dizionari ontologici o algoritmi NLP

La  sfida  della  Sentiment  Analysis:  il  linguaggio

http://voicesfromtheblogs.com

Testo“Questo film promette bene. Sembra avere una bellissima trama, un

cast d’eccezione e attori di primo piano e Stallone dà il massimo di sé

stesso. Ma non regge”

5 termini positivi vs 1 negativo

"Ibis redibis numquam peribis in bello", che si può tradurre sia come

"andrai, ritornerai, non morirai in guerra", ma anche all’opposto,

"andrai, non ritornerai, morirai in guerra" contestualizzazione

“ragazza stufa scappa di casa… i genitori muoiono di freddo”giochi di parole

“non esiste un vento favorevole per il marinaio che non sa dove andare” (Seneca) frasi

metaforiche

Come non analizzare i Social Media

NO: dizionari ontologici o algoritmi NLPLa  sfida  della  Sentiment  Analysis:  il  linguaggio

iSA  una  tecnologia  brevettata  da  

ricercatori  UNIMI

Elezioni  presidenziali  americane  2012

Dato  reale:  +3,2%  Dato  stimato  (UNIMI):  +3,5%  Dato  stimato  (Gnip):  +15%

Elezioni  amministrative  italiane  2013

Sentimeter  (UNIMI):  errore  di  previsione  più  basso  di  quello  dei  sondaggi

ISIS  vista  dalla  rete

Circa  3  milioni  di  testi  in  lingua  araba  analizzati  tra  luglio  e  ottobre  2014

Si   osserva   una  correlazione   tra  “foreign   fighters”  e   supporto   a   ISIS  in  ciascun  paese

Gradimento  visitatori  Expo

Wired  Next  Index

“Big  data  is  not  about  the  data”

Big  data  is  about  Science  @  UNIMI

https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=0CAcQjRxqFQoTCNv-­‐88T5lMgC

FYW4GgodDmEBdA&url=http%3A%2F%2Fwww.iconsdb.com%2Fwhite-­‐icons%2Ftwitter-­‐icon.html&psig=AFQjCNEA5CXeoepd-­‐SVtvZmWFTAo2Kr97A&ust=1443365474981733

Grazie!In questa versione ilcolore per la stampacorrisponde al BluAteneo (vedi tavola 3.0Colori istituzionali)

Il Marchio Minerva nonpuò essere mai modificatoné utilizzato insieme adaltri elementi salvo i casidescritti in questomanuale.

Il Marchio Minerva nonpuò mai essere utilizzatoseparatamente dallascritta “Università degliStudi di Milano” a menoche nel campo visivo noncompaia anche la versionemarchio/logotipo completa.

La riproduzione delMarchio deve avvenireutilizzando solo file digitali.

Per scaricare i file digitalioriginali vedi tavole da6.1 a 6.8.

Il Marchio - versione Blu Ateneo1.1

UNIVERSITÀ DEGLI STUDIDI MILANO

Indice

http://voicesfromtheblogs.com

Data Science Lab10 Ricercatori tra senior e junior

!Il Data Science Laboratory promuove e coordina attività di ricerca innovative nell’ambito dell’analisi e della visualizzazione dei dati complessi basate su tecniche statistiche, matematiche e computazionali.!!Alcuni ambiti di ricerca:!

✴ analisi dei dati finanziari e del rischio!✴ metodi di simulazione di scenari economici!✴ analisi delle opinioni espresse in rete !✴ stima degli effetti di trattamento!✴ integrazione tra statistiche ufficiali e open/big data!✴ indicatori di benessere di un paese

"Data Science" : capacità di estrarre informazione da dati non strutturati o provenienti dalle fonti più disparate attraverso un approccio multidisciplinare finalizzato a comprendere e raccontare la realtà.

@blogsvoices

top related