sentiment analysise il web 2 - fub.it · raffaele nicolussi gianni romano studenti di phd fub...

16
Fondazione Ugo Bordoni Sentiment analysis Sentiment analysis e il WEB 2.0 e il WEB 2.0 Giambattista Amati Giambattista Amati

Upload: truongnga

Post on 16-Feb-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

Fondazione Ugo Bordoni

Sentiment analysisSentiment analysis e il WEB 2.0 e il WEB 2.0

Giambattista AmatiGiambattista Amati

Page 2: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

2

Ricercatori FUBGianni Amati, PhDAndrea BernardiniClaudio Carpineto (resp.)Raffaele NicolussiGianni Romano

Studenti di PhD FUBGiuseppe AmodeoCarla Michini

TesistiAlessandro Marco BoutariGiorgio DesideriFabrizio FerranteVincenzo NicolettiRaffaella Toscano

CollaborazioniTerrier Team (terrier.org)Università di GlasgowUniversità di LuganoYahoo!Research BarcellonaPoznan University of TechnologyMatrixware Vienna

CollaboratoriMarco Bianchi, PhD (CNIPA) Valerio Capozio (studente PhD, Universitàdi Roma, Tor Vergata) Carlo Gaibisso (IASI CNR)Prof. Giorgio Gambosi (Università diRoma, Tor Vergata)

Information Mining FUB

Page 3: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

BlogoSphere & Web 2.0: Da consumatori a produttori di contenuti - Siti più visitati al mondo (Ultimi dati Alexa)

Ricerca di informazioni/Ricerca personalizzata/Chatrooms/Mail • Google - (1 , +1) (luglio 2008), Yahoo! - (3 , -2), Live (5, -1)

Reti Sociali • Facebook (Tasso di crescita maggiore in Cile e Italia) - (2 , +6), LinkedIn -

(29, ), MySpace - (17 , -11)…Blogs/MicroBlogs• Blogger / Blogspot - (924 ML, 26 ML italiane) - (7 , +2)• Twitter (1.9 ML di messaggi al giorno) - (12 , )• Wordpress (277 ML, 15 ML italiane) - (18 , )

Reti per la condivisione dei contenuti digitali• Youtube - (4 , -1 ), Flickr – (32 )

Wikipedia - (6 , +1 )Annotazioni (Social Tagging): Del.icio.us - (344 )

Page 4: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

Ricerca di Opinioni nei Blog

DalDal 2004 a 2004 a giugnogiugno 2006 2006 ii blogs blogs sonosono passatipassatidada 1 a 50 ML (100 ML, Nielsen 1 a 50 ML (100 ML, Nielsen BuzzmetricBuzzmetric))

Molto Molto dinamicidinamici, , scarsamentescarsamente interconnessiinterconnessi•• Molto Molto diffusidiffusi ee facilmentefacilmente accessibiliaccessibili mediantemediante

toolstools

Di Di variovario generegenere•• PoliticaPolitica, , diaridiari, , tecnologiatecnologia, , opinioniopinioni didi espertiesperti, ,

culturacultura, , ……

SoggettivitSoggettivitàà•• CommentiCommenti, , opinioniopinioni, , experienzeexperienze, , suggerimentisuggerimenti, , ……

Page 5: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

5

Temi della BlogoSphere- Ultimi dati Technorati

Page 6: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

WEB 2.0: Cosa pensa la rete di…?

Fruizione dell’informazione situata nella “Coda lunga” dei dati, generati dagli utenti stessi o da comunità di interesse (open source and open data).Paradigma che incentiva la collaborazione, la condivisione e la diffusione delle opinioni tra gli utenti stessi.

Ottenere stime attraverso l’analisi di una grandissima quantità di dati disponibili in rete

Analisi dei trend di gradimento su un qualsiasi argomento, prodotto, servizio.

Cosa pensa la rete di …. ?

Non è una rivoluzione tecnologica ma culturale che sta cambiando le stesse modalità di fruizione dei contenuti digitali, e il paradigma di risoluzione dei problemi da parte degli utenti.

Come risolvo il problema X e quale strumento o prodotto Y è il migliore per risolvere X?

6

Page 7: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

TemaTema didi ricercaricerca: Opinion : Opinion Finding TaskFinding Task

Il focus Il focus èè sullasulla naturanatura soggettivasoggettiva deideiblogsblogs

Opinion MiningOpinion Mining““What do people think about X?What do people think about X?””•• X = persona, X = persona, postoposto, , organizzazioneorganizzazione, , prodottoprodotto, ,

eventoevento, , tecnologiatecnologia

•• RecuperareRecuperare ii permalink permalink cheche esprimanoesprimano un un opinioneopinione susu XX

•• ScoprireScoprire ilil sentiresentire pubblicopubblico susu un un datodato targettarget

7

Page 8: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

SearchSearch X by sentiment Y.

8

Page 9: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

9

Search by sentiment: Search ++ Data Mining

ClassificatoreClassificatore

Blogs (permalinks)&

Tweets

Blogs (permalinks)&

Tweets

PermalinksCon opinioniPermalinks

Con opinioni

PermalinksSenza opinioniPermalinks

Senza opinioni

Dati per l’addestramento del classificatore sentimentale

Motore di RicercaMotore di Ricerca

Blogs (permalinks)&

Tweets recuperati

Blogs (permalinks)&

Tweets recuperati

La strategia con filtro di opinione non è ottimale (Amati et al.On performance of topical opinion retrieval, submitted)

Page 10: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

10

Search by sentiment: Search && Data Mining

Pesatura del contentuto sentimentale

dei documenti

Pesatura del contentuto sentimentale

dei documentiDocumenti

=Blogs

(permalinks)&

Tweets

Documenti=

Blogs(permalinks)

& Tweets

Ranking dei PermalinksRilevanti

con opinioni

Ranking dei PermalinksRilevanti

con opinioni

Modelli di fusione sono più effettiviModelli di fusione sono piModelli di fusione sono piùù effettivieffettivi

Pesatura del contentuto semantico

dei documenti

Pesatura del contentuto semantico

dei documenti

Costruzione di un dizionario di sentiment analysis pesato (conmodelli di Divergence From Randomness)

Sottomesso come interrogazione al motore di ricerca

Interrogazione

Page 11: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

Dizionario sentimentale a diversi livelli di granularitDizionario sentimentale a diversi livelli di granularitàà

abide 0.0023 inaccurate 0.0064 ... ... abject 0.0031 inane 0.0009 wish 0.0060 absolute 0.0029 inappropriate 0.0028 wonder 0.0068 absurd 0.0076 incapable 0.0072 wonderful 0.0025 abusive 0.0047 incessant 0.0052 woo 0.0024 abyss 0.0008 inclin 0.0043 worri 0.0020 acclaim 0.0008 incoherent 0.0010 worse 0.0044 accuse 0.0012 incompetent 0.0012 worst 0.0041 activist 0.0023 incomprehensible 0.0018 worth 0.0018 actual 0.0069 inconvenient 0.0026 worthless 0.0097 admir 0.0024 incredible 0.0048 worthwhile 0.0016 admirable 0.0030 indefensible 0.0011 wound 0.0046 admire 0.0011 indicative 0.0017 wrath 0.0021 admit 0.0063 indifferent 0.0029 yeah 0.0070 ... ... indispensable 0.0033 yearn 0.0049

11

Page 12: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

12

Dal 1999 risultati eccellenti alle

conferenze TREC e CLEF applicati a tasks

differenti

Modelli DFR di IR Nativi FUB:

DIVERGENCE DIVERGENCE FROM FROM

RANDOMNESSRANDOMNESS

Modelli Nativi FUB di ApprendimentoAutomatico del

dizionario da esempi(Query Expansion,

Expert Search, ecc. )

Sono entrambi implementati in

Terrier(modelli DFR e Query

Expansion)

Sviluppo iniziale di Terrier (TERabyte RetrIEveR-Motore diRicerca Open Source) in collaborazione con l’Università diGlasgow

Page 13: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

-80

-70

-60

-50

-40

-30

-20

-10

0

10

20%

Incr

ease

Opi

nion

MA

P

PartecipazionePartecipazione FUBFUB--TV TV allaalla valutazionevalutazioneTREC 2007 TREC 2007 didi opinion mining opinion mining

Ranking dei Gruppi partecipanti per incremento di precisione MAP

13

Page 14: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

What worked: Top 6 Groups; TitleWhat worked: Top 6 Groups; Title--onlyonly((ranked by opinionranked by opinion--finding MAP increasefinding MAP increase))

Group BestBaseline (MAP)

BestOpinion Ranking (MAP)

% Increase

Roma (FUB-TV) 0.2727 0.3210 17.71%Univ. ofGlasgow

0.2817 0.3264 15.87%

IndianaUniv.

0.2537 0.2894 14.07%

Univ. ofArkansas LR

0.2554 0.2911 13.89%

DalianUniv.

0.2890 0.3190 10.38%

Univ. ofWaterloo

0.2486 0.2631 5.83%

14

Page 15: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

Applicazioni

ComponenteComponente didi Opinion Mining Opinion Mining allall’’internointernodel del progettoprogetto ““TV++TV++”” sullasulla convergenzaconvergenza tratraInternet Internet ee TV (TV (Dip. per le Dip. per le ComunicazioniComunicazioni del del MinisteroMinistero per lo per lo SviluppoSviluppo economicoeconomico , ISCTI, Univ. , ISCTI, Univ. La La SapienzaSapienza))

AnalisiAnalisi deidei trend trend sullsull’’offertaofferta televisivatelevisiva•• Focused crawlingFocused crawling deidei blogs blogs ee Tweets con Tweets con

contenutocontenuto televisivotelevisivo

•• CostruzioneCostruzione didi un un dizionariodizionario sentimentalesentimentaleitalianoitaliano ((televisivotelevisivo))

•• AnalisiAnalisi deidei datidati online /offlineonline /offline

15

Page 16: Sentiment analysise il WEB 2 - fub.it · Raffaele Nicolussi Gianni Romano Studenti di PhD FUB Giuseppe Amodeo Carla Michini Tesisti Alessandro Marco Boutari Giorgio Desideri Fabrizio

16

Grazie!