seminario franco tuveri e manuela angioni, 06-09-2012
Post on 18-May-2015
925 Views
Preview:
DESCRIPTION
TRANSCRIPT
Sen$ment Analysis and Opinion Mining
Franco Tuveri – tuveri@crs4.it Manuela Angioni – angioni@crs4.it
Cagliari, 6 SeAembre 2012
NIT – Natural Interaction Technologies: http://www.crs4.it/natural-interaction-technologies
Opinion Mining
Opinion Mining: Iden$ficazione e Analisi delle Opinioni nei tes$. Sen$ment Analysis: Iden$ficazione e deduzione di sta$ emo$vi nel testo.
Opinion Mining is a new discipline which has recently a4racted increased a4en5on within fields such as marke5ng, personal affec5ve profiling, and financial market predic5on. Although o?en associated with sen5ment analysis, which consists in inferring emo5onal states from text, opinion mining is an independent area related to natural language processing and text mining that deals with the iden5fica5on of opinions and aBtudes in natural language texts. Erik Cambria et al., 2010 Sen$cNet: A Publicly Available Seman$c Resource for Opinion Mining
Opinioni…. Il recente simposio sulla Sen$ment Analysis1, organizzato da Seth Grimes in New York, si è focalizzato su: • Lo stato aAuale delle ricerca riguardante la Sen$ment Analysis e la Text
Analy$cs. • La fusione di tecnologie e mercato nella analisi delle opinioni e dei
comportamen$ aAraverso i commen$ riporta$ sui social media, news e forum aziendali.
• Diffusione in svaria$ e nuovi domini di interesse: • military intelligence • financial markets, • strategie di real marke$ng basate sui contenu$ dei social media.
Definizione di deep Marke$ng Research (DeepMR), "enabled by an ensemble of text analy$cs, sen$ment analysis, behavioral analyses, and psychometric technologies — applied to social and online sources, as well as to tradi$onal surveys — with the poten$al to revolu$onize market research". 1 http://sentimentsymposium.com/
Opinioni….
Le opinioni degli altri possono condizionare le nostre scelte
Diffusione Passaparola su Web. • Dal passaparola casuale ai commen$ degli uten$ descriven$ esperienze,
percezioni condivise su blog, forum e si$ specializza$ per la pubblicazione di review.
Opinioni su scala globale. Non più limita$ a: • Individui o circoli ristre` di amici • Ambi$ di affari circoscri` o localizza$
Tipologie di opinioni
Opinioni dirette: opinioni direttamente riferite all’oggetto.
• “Splendido Hotel modernissimo, vicino al centro storico di Cagliari” Confronti: relazioni che esprimono similarità o differenze tra oggetti.
• “Penso che Bush sconfiggerà Kerry alle prossime elezioni presidenziali”
• “La qualità del display del tablet A è superiore a quella del tablet B”
Applicazioni Rivolte ad Aziende
SeAore Turis$co: • Migliorare il servizio offerto ai clien$, misurare l’analisi dei flussi
verso mete turis$che e culturali Opinion search/retrieval:
• ricerca di opinioni e pareri in generale Market intelligence, Business intelligence, Product/Service benchmarking:
• Analisi compara$va di prodo`, servizi, etc., • Analisi reputazione aziendale o stato di salute di un brand • Supporto al lancio di nuovi prodo` • Iden$ficazione di trend di mercato emergen$ • Verifica efficacia campagne di comunicazione
Voice of the Customer (VOC): • Analizzare le interazioni e le opinioni dei clien$, via email, note,
forum, blog, altri social media
Applicazioni
Personaggi Pubblici/Poli$ca: • monitorare la propria immagine e reputazione (trust) e il proprio
gradimento Consumatori: sono interessa$ alle opinioni degli altri quando:
• devono acquistare un prodoAo o un servizio • devono trovare opinioni o pareri su argomen$ poli$ci
Profilazione uten$: • Studio delle dinamiche di gruppo • Individuazione di opinion leader e di gruppi di influenza • Verifica efficacia campagne di comunicazione
Rivolte a Persone
Applicazioni
Poli$ca: ascolta la voce dei ciAadini
• Sondaggi, Rilevamen$ di opinioni Monitoraggio e analisi dei fenomeni sociali:
• per l'individuazione di situazioni potenzialmente pericolose • la determinazione dello stato d'animo in generale o rela$vamente ad
un evento Televisione (comunicazione di massa):
• valutazione della qualità e dell’impaAo sociale dei programmi televisivi
Rivolte a Is$tuzioni
Alcuni esempi
La Reuters si è rivolta alla Crimson Hexagon, per lo sviluppo di uno strumento di Sen$ment Analysis per l’analisi delle intenzioni di voto per le elezioni USA 2010, basato su TwiAer.
Il Washington Post sviluppa @Men$onMachine, un’app che u$lizza TwiAer (e altri blog) come sistema di analisi real-‐$me degli umori dell'eleAorato delle primarie repubblicane del 2012.
Intenzioni di voto, Sondaggi
Monitoraggio e analisi dei fenomeni sociali
Nei giorni successivi alla sentenza d’appello per il deliAo di Perugia, Expert System ha svolto un’analisi per cogliere le reazioni dei commen$ in italiano e in inglese degli uten$ di TwiAer .
hAp://www.expertsystem.it/
hAp://wefeelfine.org/
hAp://wefeelfine.org/
SWOTTI. Search, Rate and Compare. Most relevant opinions in Internet with seman$c ra$ng.
hAp://www.swo`.com/
Search for Opinions…
hAp://www.regula$ons.gov/#!home;tab=search
ProgeAo FIRST
• ABI Lab Conference a Milano: presentato il primo proto$po di modello di supporto alle decisioni basato sugli sta$ emo$vi espressi sul Web.
• Applicato al servizio di micro blogging TwiAer o ai da$ testuali estra` dai blogs.
• Estrae e meAe in relazione gli sta$ emo$vi ai movimen$ dei prezzi azionari.
• I risulta$ indicano una forte relazione posi$va tra stato emo$vo e volume degli scambi.
• Fornisce all’utente finale spun$ importan$ sui movimen$ dei merca$ finanziari e contribuisce al miglioramento del processo decisionale e all'efficienza del mercato.
Large scale inForma$on extrac$on and Integra$on infRastructure for SupporTing financial decision making
http://project-first.eu/content/press-release-eu-project-first-uses-twitter-co-financial-decision-making
Introduzione alla NLP con approccio linguis$co
17
Natural Language Processing
I Linguaggi Naturali sono i generici linguaggi usa$ dagli essere umani, non ar$ficiali (es: Esperanto) né formali come i linguaggi di programmazione. Il Natural Language Processing (NLP) descrive i tenta$vi di u$lizzare i computer per processare un linguaggio naturale. NLP è “lo studio dei sistemi informa$ci per la comprensione e generazione del linguaggio naturale” (Grisham, 1986)
L’approccio linguis$co alla NLP si basa su diversi livelli di analisi: • Analisi Morfologica: analisi della struAura delle parole • Analisi Sinta`ca: struAure sinta`che correAe; rifiutare quelle non correAe • Analisi Seman$ca: associare significa$ alle struAure (es. “Verdi idee incolori dormono furiosamente”, Chomsky, 1957)
• Integrazione del discorso: una frase può dipendere dalle preceden$ (es. “Gianni lo voleva”) • Analisi Pragma$ca: a volte la struAura va interpretata (es. “Sai che ora è?” significa “Mi dici l’ora?”)
18
Analisi Morfologica
La Morfologia (*) è lo studio di come le parole sono costruite a par$re da unità atomiche deAe morfemi. L’analisi Morfologica di una parola comprende: • il lemma da cui è originata • il numero, la persona, il genere e gli altri parametri gramma$cali che la
individuano. L’analisi viene faAa per i :
• Lemmi verbali, aAraverso le desinenze e regole di flessione • Lemmi non verbali, aAraverso le sole desinenze
E’ la base di partenza per la fase successiva di analisi sinta`ca.
(*) Dizionario di linguis$ca – direAo da G.Luigi Beccaria ed. Einaudi
19
Analisi Sinta`ca Possiamo definire la Sintassi come cos$tuita da:
• una gramma$ca del linguaggio che vogliamo analizzare • un lessico, che con$ene le parole del linguaggio • un parser, che interpreta le le frasi
L'analisi sinta`ca tramite parsing sinta`co, è una funzione u$le a catalogare o iden$ficare le relazioni tra le par$ di una frase, ovvero i termini o gli insiemi di termini. Se è possibile costruire due rappresentazioni sinta`che, o parser-‐tree o alberi sinta`ci diversi a par$re dalla stessa frase e dalla stessa gramma$ca, la frase è deAa sintaBcamente ambigua Il parser sinta`co, o phrase recogni-on parser, esegue un'analisi dei cos$tuen$ della frase, ad esempio individuando la parte nominale e/o la parte verbale, e analizza come le parole si compongono in unità più grandi, deAe sintagmi, e verifica il rispeAo delle regole gramma$cali.
20
Analisi Sinta`ca: parsing
Il parsing è il processo di assegnazione di una struAura ad una stringa in base ad una gramma$ca. In linguis$ca, si intende il processo di analisi sinta`ca di un testo, realizzato come l’iden$ficazione di un insieme di tokens (es.: le parole) al fine di determinare la struAura gramma$cale con riferimento ad una data gramma$ca formale.
estraAa da: hAp://en.wikipedia.org/wiki/Parsing
21
Analisi Seman$ca “La determinazione del significato di una frase avviene in diverse fasi successive: nella prima ci si serve solo della stru%ura sinta*ca e dei significa0 delle parole, mentre nella seconda si 5ene conto delle frasi preceden5 già interpretate, di conoscenze sull'argomento di cui il testo tra4a e di conoscenze generiche sul mondo. La prima fase prende il nome di “analisi seman5ca” [Allen 1995] La Seman$ca è lo studio del significato delle parole e di come esse si combinano per formare il significato delle frasi. In genere si fa dis$nzione tra:
• Seman$ca Lessicale (Lexical Seman$cs) o studio delle relazioni lessicali (sinonimia, iperonimia/iponimia, meronimia, .. )
• Seman$ca delle frasi (Sentences Seman$cs) o studio del significato di intere frasi. L'analisi seman$ca fornisce i corre` significa$ dei costru` sinta`ci individua$ dall'analizzatore sinta`co e ne risolve l'ambiguità. I termini o le parole vengono sos$tui$ dagli iden$ficatori del significato in una fase che prende il nome di Word Sense Disambigua5on (WSD).
22
Analisi Seman$ca: tappe fondamentali
Mol$ dei metodi lega$ al WSD, Word Sense Disambigua$on, sono na$ intorno agli anni ‘50 per proseguire sino ai giorni nostri:
• 1949 Weaver: finestra di testo avente N parole che precedono e che seguono la parola da disambiguare
• 1955 Reifler: “Seman$c Coincidences”, relazioni tra struAure sinta`che e word sense • 1961 Masterman: Definizione di una Rete Seman$ca di 100 conce`
con nodes = concepts, e archi = relazioni seman$che. • 1961-‐1969, Quillian: “ricerca dell’intersezione” – due percorsi si intersecano a par$re da due nodi • 1975 Minsky, definizione di frame “collezione di aAribu$ e dei valori ad essi associa$ che
descrivono una qualche en$tà del mondo” • ~1980 Knowledge-‐based Methods: si comincia a lavorare su Thesaurus, Dizionari e “Lexicon” • ~1990 Miller et al.: Si comincia a lavorare al lexicon di WordNet • ~1991 Corpus-‐based Methods: tagging di word senses.
• Hearst: Algoritmo “CatchWord”. U$lizza una fase di training che richiede un set di word senses e$cheAato a mano
• 1998, Leacock – Chodorow: U5lizzo della rete seman5ca di WordNet per la misurazione della distanza tra I significa5 dei termini per la disambiguazione del loro senso.
23
Gli strumen$
Strumen$ per l’analisi del testo: • Parser sinta`ci: effeAua l’analisi morfologica e sinta`ca di una frase;
• Esegue il POS (part of speech) Tagging (unica interpretazione morfologica) • Individua le possibili struAure sinta`che della frase
• Risorse lessicali: • WordNet e le sue principali estensioni
• Tassonomie: • Classificazione dei tes$ analizza$: u$le per la disambiguazione seman$ca delle
frasi: es.: WordNet Domains
Qualche esempio di Parser Sinta`co
Montylingua LinkGrammar TreeTagger
Opinion Mining
Opinion Mining: Overview Un sistema di Opinion Mining ha come principali obie`vi: • Analizzare le opinioni riferite ad even$ o a fa` anche in corso di
svolgimento, anche quando esse non siano riferite a specifici argomen$.
• Estrarre feature e informazioni significa$ve contenute nelle opinioni, rela$ve a diversi contes$ non sempre ben defini$, a par$re da molteplici sorgen$ di review.
• Esplorare la ques$one della contestualizzazione delle feature aAraverso l’u$lizzo di strumen$ per la classificazione seman$ca, per la ges$one di re$ seman$che e l’u$lizzo di risorse linguis$che ad hoc.
• Aggregare e rappresentare i risulta$ elabora$ (Opinion Summariza$on)
Opinion Mining can be roughly divided into three major tasks of development of linguis5c resources, sen5ment classifica5on, and opinion summariza5on.
Lee et al., 2008 -‐ Opinion Mining of customer feedback data on the web.
Sviluppo di risorse linguis$che
Opinion Summariza$on
Feature Extrac$on
Opinion Mining: Overview
Definizione di Opinione
Un’opinione è una quintupla: (oj, fjk, soijkl, hi, tl) oj è l’oggeAo di riferimento fjk è una feature dell’oggeAo oj. soijkl è il valore dell’opinione espressa dalla persona hi sulla feature fjk dell’oggeAo oj al tempo tl. soijkl puo assumere valore pos, neg, o neu, o un ra$ng più granulare. hi è la persona che esprime l’opinione (opinion holder). tl è il tempo in cui l’opinione viene espressa.
(Liu, a Ch. in NLP handbook)
Qualche definizione… Un ogge4o O è definito come un’en5tà che può essere un prodo4o, una persona, un evento, un’organizzazione o un argomento. Un ogge4o è associato ad una coppia O: (T, A), dove T indica una gerarchia o una tassonomia di par5, componen5 e/o sub-‐componen5, e A un insieme di a4ribu5 di O. Ciascuna componente può possedere un proprio insieme di sub-‐componen5 e a4ribu5. (Ding et al., 2008) Una feature f è definita come una proprietà rela$va ad uno specifico oggeAo O. Essa è rappresentata dai termini o dalle espressioni, rispeAo alle quali le opinioni sono espresse, e da un set di aAribu$.
• Un task rilevante dell’Opinion Summariza$on riguarda l’estrazione delle feature.
• Iden$ficazione dei noun aAraverso il pos-‐tagging, valutazione della frequenza delle parole basata sul calcolo della �-‐idf (Scaffidi, 2007). • Metodi di apprendimento constrained semi-‐supervised per risolvere il
problema del raggruppamento delle features (Zhai et al., 2010). • Estrazione delle feature esplicite nelle noun phrases (Popescu and
Etzioni, 2005).
Feature Extrac$on
Pu`ng it all together: Finding sen$ment for aspects
31
Reviews
Final Summary
Sentences & Phrases
Sentences & Phrases
Sentences & Phrases
Text Extractor
Sentiment Classifier
Aspect Extractor Aggregator
S. Blair-‐Goldensohn, K. Hannan, R. McDonald, T. Neylon, G. Reis, and J. Reynar. 2008. Building a Sen$ment Summarizer for Local Service Reviews. WWW Workshop
Risorse Linguis$che
33
WordNet
WordNet è un database lessicale realizzato per la lingua Inglese dall’Università di Princeton ad opera di George Miller ed altri tra cui ricordiamo Chris$ane Fellbaun e Piek Vossen. Il lavoro è portato avan$ oggi dalla Global WordNet Associa$on (GWA). Raggruppa nomi, verbi, agge`vi e avverbi organizzandoli in insiemi (set) di sinonimi, de` synset. Ciascun synset esprime un diverso conceAo iden$ficato univocamente da un synsetID. I synset sono collega$ tra loro per mezzo di relazioni lessicali e seman$che come:
• sinonimia • meronimia • Iperonimia/iponimia • Antonimia
34
WordNet Sinonimia: “rapporto tra segni linguis$ci che hanno lo stesso significato”*
es.: cortese = gen$le Meronimia “relazione seman$ca tra nome del tuAo e nome di una sua parte” *
es.: motore è meronimo di automobile Iperonimia / Iponimia “relazione seman$ca paradigma$ca tra termine generico Iperonimo o sovraordinato e uno o più termini specifici o Iponimi ”*
es.: mobile (iperonimo) e sedia, tavolo, armadio (iponimi) Antonimia “relazione tra due segni di significato contrario” *
es.: bello/bruAo, amore/odio
(*) Dizionario di linguis$ca – direAo da G.Luigi Beccaria ed. Einaudi
35
WordNet: dog The noun dog has 7 senses (first 1 from tagged texts) 1. (42) {02001223} <noun.animal> dog#1, domes$c dog#1, Canis familiaris#1 -‐-‐ (a member of the genus Canis
(probably descended from the common wolf) that has been domes$cated by man since prehistoric $mes; occurs in many breeds; "the dog barked all night")
2. {09465341} <noun.person> frump#1, dog1#2 -‐-‐ (a dull unaArac$ve unpleasant girl or woman; "she got a reputa$on as a frump"; "she's a real dog")
3. {09382160} <noun.person> dog#3 -‐-‐ (informal term for a man; "you lucky dog") 4. {09256536} <noun.person> cad#1, bounder#1, blackguard#1, dog2#4, hound#2, heel#3 -‐-‐ (someone who is
morally reprehensible; "you dirty dog") 5. {07205647} <noun.food> frank#2, frankfurter#1, hotdog1#3, hot dog1#3, dog1#5, wiener#2, wienerwurst#1,
weenie#1 -‐-‐ (a smooth-‐textured sausage of minced beef or pork usually smoked; o�en served on a bread roll)
6. {03754154} <noun.ar$fact> pawl#1, detent#1, click#4, dog#6 -‐-‐ (a hinged catch that fits into a notch of a ratchet to move a wheel forward or prevent it from moving backward)
7. {02617005} <noun.ar$fact> andiron#1, firedog#1, dog1#7, dog-‐iron#1 -‐-‐ (metal supports for logs in a fireplace; "the andirons were too hot to touch")
The verb dog has 1 sense (first 1 from tagged texts) 1. (2) {01943890} <verb.mo$on> chase#1, chase a�er#2, trail#2, tail#1, tag#4, give chase#1, dog#1, go a�er1#1,
track#3 -‐-‐ (go a�er with the intent to catch; "The policeman chased the mugger down the alley"; "the dog chased the rabbit")
WordNet
Demo di WordNet
37
WordNet Domains
WordNet Domains è una risorsa che rappresenta associazioni tra i synset di WordNet e un set di categorie estraAo dalla Dewey Decimal Classifica$on (DDC) Questa estensione del WordNet originale risulta u$le per mol$ scopi ed in par$colare per la disambiguazione automa$ca di senso perché permeAe di collegare, aAraverso l'aAribuzione di appartenenza ad una o più categorie, synset che altrimen$ risulterebbero completamente scollega$ tra loro. Ad esempio, in WordNet originale, synset come "doctor", "emergency room", "to operate" non sono collega$ in nessun modo, mentre in WordNet Domains sono tu` e tre e$cheAa$ con l'e$cheAa "medicina".
Sviluppato presso la Fondazione Kessler: hAp://wndomains.�k.eu/
I Differen$ Sta$ Affe`vi (secondo Scherer)
• Sta- Emo-vi (Emo-on): sta$ d’animo come reazione sincronizzata con un evento rilevante • rabbia, tristezza, gioia, paura, vergogna, orgoglio, entusiasmo
• Stato d’Animo (Mood): mutazione frequente dello stato d’animo, senza causa specifica, di bassa intensità, di lunga durata • allegria, tristezza, irritabilità, apa5a, depressione, oBmismo
• A=eggiamen- Interpersonali (Interpersonal stances): interazione specifica con un’altra persona • amichevole, seduBvo, distante, freddo, caldo, confortante, sprezzante
• A=eggiamen- (A@tudes): disposizione duratura, intensa, verso persone e cose • simpa5co, amorevole, odioso, s5mato, desiderabile
• Personalità (Personality traits): disposizioni stabili di personalità e tendenze comportamentali $piche • nervoso, ansioso, temerario, cupo, os5le, geloso
Active/Aroused
Nel contesto della Human-‐Computer Interac$on (HCI) il modello intende misurare quanto: • l’utente è contento del servizio • l’utente è interessato all’informazione fornita • l’utente è a proprio agio con l’interfaccia • l’utente è disposto ad u$lizzare l’applicazione
E. Cambria et al. -‐ 2010: “Sen$cNet: A Publicly Available Seman$c Resource for Opinion Mining”
Estensioni di WordNet • WordNet Domains:
• Mapping dei synset di WordNet su un subset di DDC
• Micro-‐WNOp: • “Gold Standard” u$lizzato per la validazione di Sen$WordNet
• Sen$WordNet: • Espande WordNet grazie all’acquisizione semi-‐automa$ca di polarità dei termini di WordNet
• WordNet Affect: • affec$ve-‐labels o a-‐labels associate ai synset di WordNet
• Q-‐WordNet • risorsa lessicale di significa$ di WordNet annota$ automa$camente con valori di polarità
• FreeWordNet • Database lessicale di synset arricchi$ con un insieme di proprietà rela$ve ad agge`vi ed
avverbi
Micro-‐WNOp
MicroWnOp è composta da un set bilanciato di 1,105 WordNet synsets annota$ manualmente da un gruppo di 5 valutatori. Assegna un valore di score Posi$vo, Nega$vo e Ogge`vo la cui somma deve essere uno. Sono sta$ adoAa$ due criteri: • Opinion relevance: il numero di synset deve essere rappresenta$vo per ciascun opinion topic. • WordNet representa5veness, rispeAare la distribuzione dei synset di WordNet sulle diverse part of speech.
Sen$WordNet
Sen$WordNet (Esuli and Sebas$ani, 2006) è una risorsa lessicale che associa a ciascun synset di WordNet tre score di polarità Posi$vo, Nega$vo e Ogge`vo.
I tre score derivano dai risulta$ prodo` da un gruppo di oAo classificatori che classificano sui tre valori di polarità.
hAp://sen$wordnet.is$.cnr.it/
WordNet Affect
• I synset che indicano emozioni sono sta$ segna$ con l’a-‐label emo$on
• I synset che indicano umori, situazioni emo$ve, reazioni emo$ve (behavior, a`tude, mood, ecc...).
• Ulteriori a-‐label specializzano la generica e$cheAa emo$on dis$nguendo la valenza in posi$ve, nega$ve, neutral o ambigous.
• Si dis$nguono ulteriormente gli agge`vi (ma anche verbi e avverbi) in causa$vo (“La stanza paurosa”) e dichiara$vo (“il bambino impaurito”)
Arricchisce WordNet con una gerarchia di e$cheAe emo$ve (affec$ve-‐labels o a-‐labels):
hAp://wndomains.�k.eu/wnaffect.html
Q-‐WordNet
• Risorsa lessicale in cui i synset di WordNet sono automa$camente annota$ con valori di polarità posi$va o nega$va.
• Parte da 6 synset aven$ polarità nota: • Posi$ve, nega$ve, bad, good, superior, inferior
• Propaga la polarità usando le relazioni seman$che: • Antonimia, sinonimia, iperonimia, etc.
Rodrigo Agerri, Ana Garcıa-‐Serrano, 2010: “Q-‐WordNet: Extrac$ng Polarity from WordNet Senses“
FreeWordNet
Database lessicale di synset arricchi$ con un insieme di proprietà rela$ve ad agge`vi ed avverbi. In deAaglio: • circa 800 synset di agge`vi (2300 coppie synset/termine) • 425 synset di avverbi (490 coppie synset/termine) Ciascun synset possiede associato il valore di polarità e delle proprietà associate. Le proprietà contengono intrinsecamente opinioni riguardan$ il termine o l’espressione a cui i termini sono riferi$.
FreeWordNet Proprietà Agge`vi secondo 15 differen$ $pologie, sono:
• emo$on • moral • weather • color • quan$ty • appearance • material • shape
• touch • taste • size (or dimension) • $me • geography • other (nc)
FreeWordNet
Proprietà Avverbi secondo 7 differen$ $pologie, sono:
• Modali (Posi$vi, Nega$vi, Neutri): • Persone • Cose
• Cronologia • Località • Intensificatori ed Enfa$zzatori • Quan$tà o grado (intensità) • AND – Affermazione, Negazione, Dubbio
Adjectives Properties
Examples Pos. Neg. Obj.
Emotion alive depressed labial Moral/Ethic respectable caddish - Character audacious caitiff vacant Weather beautiful arid climatic Color - washy colored Quantity broad - latter Appearance beautiful grisly tentacular Material waterproof erose tabular Shape - - jagged Touch setose spiny calorific Taste sweet disgustful caffeinic Dimension stately wide graduated Chronologic new - immutable Geographic - homeless eastern
FreeWordNet
Sen$ment Classifica$on
Creazione di un Corpus di Opinioni: • dalle opinioni di uno specifico Data
Provider (es: TripAdvisor, Booking.com, etc)
• dalle opinioni rilevan$ per un argomento estraAe da diverse fon$ (blog, forum, si$ di recensioni, giornali e news online, etc)
Opinion Retrieval
Analisi Linguis$ca
Corpus
Approccio Linguis$co
• L’approccio alla Opinion Mining da noi seguito è basato sulla combinazione di avverbi ed agge`vi e sull’uso dei synset di WordNet rela$vi a ciascun termine.
• Si focalizza sull’analisi delle opinioni aAraverso le fasi di: analisi sinta`ca e seman$ca delle risorse, di informa$on extrac$on e di valutazione dell’orientamento seman$co.
• Si sviluppa aAraverso le fasi di disambiguazione seman$ca e di classificazione dei tes$ considerando i diversi significa$ espressi nelle frasi che compongono il testo.
• L’u$lizzo di specifiche risorse linguis$che sviluppate ad hoc, che associano significa$ di agge`vi ed avverbi a specifiche proprietà rende possibile l’iden$ficazione del contesto di u$lizzo dei termini e il loro raggruppamento in specifiche categorie tema$che.
Sen$ment Classifica$on
21/03/12
Sentence Analysis: deAaglio
Il Corpus Rappresenta il dominio
Analisi del Corpus: • Iden$ficazione delle review e delle singole frasi che le compongono • Categorizzazione del corpus, delle review e delle frasi • Analisi Sinta`ca del testo
• Iden$ficazione di agge`vi, avverbi, nomi e verbi • Iden$ficazione delle parole composte • Correlazione tra agge`vi e avverbi e nomi
• Analisi seman$ca del testo • Disambiguazione del senso più probabile con cui un termine è usato
• Estrazione delle feature dal corpus con iden$ficazione della review e della frase di appartenenza
• Valutazione dell’orientamento seman$co rela$vamente al corpus, alle review e alle frasi
Hotel, Room, Balcony, Bathroom, Resort, Shower, Restaurant, Breakfast, Buffet
Estrazione delle feature.
Great modern hotel in central Cagliari. Our room was modern and spacious with the only thing out of place was the big old fashioned tv. We had breakfast included in the rate and it was great with loads of choices.
Iden$ficazione delle review e frasi
Great modern hotel in central Cagliari. Our room was modern and spacious with the only thing out of place was the big tv. We had breakfast included in the rate and it was great with loads of choices.
Analisi Sinta`ca: ADJS, NOUNS
Estrazione di informazione dal Corpus
Tourism, Building, Town Planning Iden$ficazione di categorie di dominio e calcolo dei pesi associa$.
Es: the room had the classic moldy smell frase faAuale con polarità nega$va
I went with my older sister frase faAuale senza polarità
Iden$ficazione di frasi sogge`ve e frasi faAuali con polarità.
Our room was modern
Disambiguazione Seman$ca breakfast: sid=7107012 gloss: the first meal of the day (usually in the morning)
Chunking Sinta`co: ADJS, NOUNS, VERBS
Estrazione di informazione dal Corpus
<N> <V> <ADJ>
Classificazione Seman$ca
59
Analisi del testo
Il Classificatore da noi definito, lavora in una certa fase del processo di analisi del testo. In par$colare viene u$lizzato nella classificazione dei documen$ e in una fase di disambiguazione seman$ca. Per quanto riguarda la Disambiguazione dis$nguiamo in: Disambiguazione Sinta`ca:
operata per mezzo del parser sinta`co tramite: • POS (part of speech) tagging • Iden$ficazione di relazioni tra i termini
Disambiguazione Seman$ca:
• Iden$ficazione termini compos$ • Iden$ficazione dei possibili sensi dei termini (WSD, Word Sense Disambigua5on)
Classificazione del testo Tassonomia di riferimento derivante da WordNet Domains (subset di 160 ca.
categorie del DDC)
60
Un esempio di classificazione seman$ca:
Classificatore seman$co
Opinion Summariza$on
Opinion Summariza$on
Feature-‐based o Aspect-‐based Opinion Summariza5on Indica la generazione di sommari di opinioni rela$vamente a set of aspe` o features.
La Feature Iden$fica$on è usata per iden$ficare gli aspe` su cui si focalizzano le opinioni La Sen$ment Classifica$on o Sen$ment Predic$on determina la polarità delle opinioni espresse riguardan$ le feature individuate La Summary Presenta$on mostra i risulta$ oAenu$ nei passi preceden$.
Kim et al., 2011: Comprehensive Review of Opinion Summariza$on
Features Iden$fica$on
• �/idf applicata alla collezione di reviews • Iden$ficazione delle feature candidate nelle frasi • Classificazione delle collezione di reviews (categorie di dominio) • Riduzione del numero delle feature candidate in base alle categorie di dominio • Analisi e validazione delle feature candidate tramite algoritmi di distanza seman$ca e
di classificazione • Contestualizzazione delle feature • Mapping termine-‐synset calcolato con l’algoritmo di WSD, di distanza seman$ca,
basato sui pesi dei synset e sulle categorie per definire relazioni e pesi di ciascuna relazione.
• Definizione di una matrice delle feature i cui valori indicano il peso delle relazioni tra tuAe le feature individuate.
Sen$ment Classifica$on
Predice l’orientamento posi$vo o nega$vo rela$vamente ad una feature o ad una funzionalità. Lo scopo della Sen$ment Classifica$on o Sen$ment Predic$on, in un dato contesto, è permeAere la scoperta di un orientamento degli sta$ emo$vi espressi nelle opinioni riferite alle feature.
La Sen$ment Predic$on basata sull’u$lizzo di risorse lessicali è stata per la prima volta proposta da Hu and Liu nel 2004 e in seguito da altri ricercatori (*). Il lessico con$ene un dizionario di termini posi$vi e nega$vi u$lizza$ per il matching di termini u$lizza$ nei tes$ analizza$. * M. Hu and B. Liu. 2004, Mining and summarizing customer reviews Zhuang et al. 2006, Movie Review Mining and Summariza$on
Summary Presenta$on U$lizzando i da$ della feature iden$fica$on e della sen$ment predic$on si possono generare e rappresentare i sommari finali delle opinioni in un formato efficace e facile da capire.
• Sta$s$cal Summary: usa i da$ processa$ negli step di feature iden$fica$on e sen$ment predic$on • Filtering: filtri applicati ai dati processati per la selezione delle informazioni • Text Selec$on: iden$fica i periodi rappresenta$vi per ciascuna feature • Aggregated Ra$ngs: combina la sta$s$cal summary e la text selec$on • Summary with a Timeline: mostra le tendenze delle opinioni legandole ad una $meline
Features I da$ sono organizza$ come uno sta$c JSON tree e carica$ in uno Squarified Treemap. La figura mostra la visualizzazione dei risulta$ riferi$ a un corpus di reviews riguardan$ un noto hotel di Cagliari. Le feature sono raggruppate secondo dei valori che indicano la loro correlazione.
JavaScript InfoVis Toolkit: hAp://thejit.org/
La rappresentazione fornisce all’utente un’idea generale e completa del dominio. E’ un aiuto per la navigazione sulle features.
L’interfaccia di ricerca permeAe di filtrare le review per data, per feature, incrociando la ricerca con la selezione della polarità o del profilo di interesse.
Filtering
Aggregated Ra$ngs with Timeline
Le review possono essere filtrate in base al periodo di tempo che si desidera osservare indicando la data iniziale e finale, e/o in base alle feature, alla polarità e al profilo degli autori delle opinioni.
La $meline in questo caso mostra le review ancorate alle date della permanenza degli uten$
Aggregated Ra$ngs with Timeline
La Timeline incrocia il dato temporale delle review alla polarità delle opinioni espresse per la feature selezionata. Il diagramma mostra in rosso i valori di polarità nega$vi e in verde i valori posi$vi. Le aree in blue indicano gli even$ lega$ alla data. Anche in questo caso è possibile filtrare l’informazione secondo i parametri indica$ nella form di ricerca.
Data Summariza$on
Data Summariza$on
Feature Net Summary Presenta$on
Demo: Opinion Summariza$on
Grazie
NIT – Natural Interaction Technologies: http://www.crs4.it/natural-interaction-technologies
Bibliografia • Tuveri, F., Angioni, M. A Linguis$c Approach to Feature Extrac$on Based on a Lexical Database of the Proper$es of
Adjec$ves and Adverbs. Global WordNet Conference GWN2012, Matsue, Japan. • Bing Liu,, B. NLP Handbook Chapter: Sen$ment Analysis and Subjec$vity, 2nd Edi$on, (Editors) N. Indurkhya and F.
J. Damerau), 2010. • Xiaowen Ding, Bing Liu and Philip S. Yu. 2008 A Holis$c Lexicon-‐Based Approach to Opinion Mining. Proceedings of
WSDM 2008. • Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., Jin, C.: Red Opal: product-‐feature scoring from reviews. ACM
Conference on Electronic Commerce 2007: 182-‐191 (2007) • Zhai, Z., Liu, B., Xu, H., Jia, P.: Grouping Product Features Using Semi-‐Supervised Learning with So�-‐Constraints. In
Proceedings of the 23rd Interna$onal Conference on Computa$onal Linguis$cs (COLING-‐2010), Beijing, China (2010)
• Popescu, A., M., and Etzioni, O.: Extrac$ng Product Features and Opinions from Reviews. Proceedings of the 2005 Conference on Empirical Methods in Natural Language Processing ( 2005)
• Andrea Esuli and Fabrizio Sebas$ani. Sen$WordNet: A Publicly Available Lexical Resource for Opinion Mining. In Proceedings of the 5th Conference on Language Resources and Evalua$on (LREC 2006), Genova, IT, 2006, pp. 417-‐422.
• Benamara, F., Cesarano, C., Picariello, A., Reforgiato, D., Subrahmanian, V.,S. 2007. Sen$ment Analysis: Adjec$ves and Adverbs are beAer than Adjec$ves Alone. In Proceedings of ICWSM 07 Interna$onal Conference on Weblogs and Social Media, pp. 203-‐206.
• Rentoumi, V., Giannakopoulos, G., 2009. Sen$ment analysis of figura$ve language using a word sense disambigua$on approach. In Interna$onal Conference on Recent Advances in Natural Language Processing (RANLP 2009), Borovets, Bulgaria, The Associa$on for Computa$onal Linguis$cs.
• Miller, G., A., 1995. WordNet: A Lexical Database for English. Communica$ons of the ACM Vol. 38, No. 11 • Leacock, C. and Chodorow, M.: Combining local context and WordNet similarity for word sense iden$fica$on. In Fellbaum 1998, pp. 265-‐283
• Lee, D., Jeong, O., Lee, S., 2008. Opinion Mining of customer feedback data on the web. In ICUIMC '08 Proceedings of the 2nd Interna$onal Conference on Ubiquitous Informa$on Management and Communica$on.
• Wiebe, J., Mihalcea, R., 2006. Word Sense and Subjec$vity. In Proceedings of the Annual Mee$ng of the Associa$on for Computa$onal Linguis$cs, Sydney, Australia.
• Baccianella, S., Esuli, A., Sebas$ani, F., 2010. Sen$WordNet 3.0: An Enhanced Lexical Re-‐source for Sen$ment Analysis and Opinion Mining. In Proceedings of LREC-‐10, 7th Conference on Language Resources and Evalua$on, ValleAa, MT, pages 2200-‐2204.
• Agerri, R., García-‐Serrano, A., 2010. Q-‐WordNet: Extrac$ng polarity from WordNet senses. Seventh Conference on Interna$onal Language Resources and Evalua$on.
• Valitu`, A., Strapparava, C., Stock, O., 2004. Developing affec$ve lexical resources. In Psychnology Journal Vol. 2. • Magnini, B., Strapparava, C., Pezzulo, G., Gliozzo, A., 2002. The Role of Domain Informa$on in Word Sense Disambigua$on. Natural Language Engineering, special issue on Word Sense Disambigua$on, 8(4), pp. 359-‐373, Cambridge University Press.
• Cerini, S., Compagnoni, V., Demon$s, A., Formentelli, M., Gandini, C., 2007. Micro-‐WNOp: A gold standard for the evalua$on of automa$cally compiled lexical resources for opinion mining. In Andrea Sanso`, editor, Language resources and linguis$c theory: Typology, second language acquisi$on, English linguis$cs, pages 200–210. Franco Angeli Editore, Milano, Italy.
• Angioni, M., Demon$s, R., Tuveri, F., 2008. A Seman$c Approach for Resource Cataloguing and Query Resolu$on. Communica$ons of SIWN. Special Issue on Distributed Agent-‐based Retrieval Tools.
• Akkaya, C., Mihalcea, R., Wiebe, J., 2009. Subjec$vity Word Sense Disambigua$on. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 190–199, Singapore, ACL and AFNLP.
Bibliografia
top related