scopekm: allumfassende extraktion von informationen aus den social media
DESCRIPTION
Mit der Technologie „Allumfassende Extraktion“ wird ein System aufgebaut, das Texte aus praktisch jeder Quelle - aus Social Media (Twitter, Foren, Blogs etc.), Callcenter-Aufzeichnungen, E-Mails oder Kundenumfragen - in verwertbare Informationen umwandelt und auf diese Art tiefgreifende Einblicke in aggregierte Kundendaten ermöglicht. Allumfassende Extraktion untersucht die Wörter und ihre Umgebung und interpretiert Sätze und Phrasen in fast der gleichen Weise, wie es der menschliche Geist tut. Es extrahiert die Fakten, Beziehungen und Stimmungen aus diesen Dateien in einer sehr präzisen Art und Weise und analysiert die Inhalte. Der Fliesstext wird in Near-Real-Time extrahiert, um die thematischen Rollen aller Akteure, die Aktionen und deren Konstituenten zu bestimmen. Die Technologie ermöglicht dem Anwender, Fakten bezüglich der Fragen „Wer, Was, Wo, Wann und „Warum“ zu eruieren und zu analysieren. Im Anschluss können Menschen, Orte, Ereignisse und ihre Beziehung zueinander ermittelt werden. Als Ergebnis werden Daten in einem strukturierten, relationalen Format erzeugt, die mit bereits existenten, strukturierten Daten (DWH u.ä.) zur weiteren Analyse verknüpft werden. Schemata zur sofortigen Datensuche oder für Business-Intelligence-Anwendungen werden mitgeliefert.TRANSCRIPT
scopeKMKnowledge Management
Präsentation von
Juraj Schick, Dipl. Ing. ETH
scopeKM Knowledge Management GmbH, 8033 Zürich, Schweiz
Allumfassende Extraktionvon Informationen aus den
Social Media
scopeKMKnowledge Management
Der Ansatz
� Die Methode der “Allumfassenden Extraktion” extrahiert in Near-Real-Time und in einer sehr präzisen Art und Weise Informationen aus unstrukturiertem Text in unterschied-lichsten Kanälen Fakten, Beziehungen und Stimmungen und wandelt diese in eine strukturierten Form um.
� Der in XML und in strukturiertem relationalem Datenformat erstellte Output wird mit den bestehenden strukturierten internen relationalen Daten (DWH) gekoppelt.
� Die auf diese Art kombinierten Informationen können mit den im Unternehmen bereits bestehenden BI-Anwendungen untersucht werden.
scopeKMKnowledge Management
Mit dem NLP werden verschiedene sprachliche Repräsentationsebenen sequentiell bearbeitet:
� Tokenisierung. Die Buchstabenkette wird in Wörter, Sätze etc. segmentiert.
� Morphologische Analyse. Die innere Struktur der Wörter wird betr. Bedeutung und Funktion analysiert, um die grammatikalischen Information zu extrahieren und um die Wörter im Text auf Grundformen zurückzuführen.
� Syntaktische Analyse. Die Wörter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert (z.B. Subjekt, Objekt, Modifikator, Artikel, etc.)
� Semantische Analyse. Den Sätzen bzw. ihren Teilen wird in einer Vielzahl von verschiedenen Einzelschritten Bedeutung zugeordnet.
NLP Natural Language Processing (Computerlinguistik)„Voice of the Customer“ – Stimmungen in den Konversationen der Social Media verstehen erfordert Verständnis und Analyse des natürlich gesprochenen Textes.
scopeKMKnowledge Management
Information Extraction (IE)� Information Extraktion = Extraktionslogik / Muster � Mit der IE werden aus einem Text die dem Muster entsprechende signifikante Elemente
extrahiert: die Beantwortung der Frage nach „Wer“, „Was“, „Wo“, „Wann“, „Wie“ und „Warum“.
Muster für :
• Wer war der Käufer• Was war das Geschenk• Wer war der Empfänger• Wann hat es stattgefunden• Was war der Wert
scopeKMKnowledge Management
Vor- und Nachteile der IE
Die Vorteile der IE:
• Faktisches Verständnis (Beispiel: alle Facetten des „Gifting Event“
• Mehrdimensionale Analytik / spezifische Abfragen
• Fein granuliere Abbildung des Inhalts
Die Nachteile der IE:
• Grosser Aufwand für die Vor-definition der Logik / der Muster
• Nur das spezifische Wissen wirdextrahiert
• Keine Wissensakquisitionmöglich
�Man wird nie sehen oder verstehen Dinge, von denen man nicht erwartet, dass sie sich aus dem (Kon-)Text ergeben könnten.
scopeKMKnowledge Management
Philosophie der Methode der „Allumfassenden Extraktion“�“I don’t know what I’m looking for, but I’ll know it when I see it.”
David Bean, Prof., Dept. of Linguistics, University of Utah
Ein solcher Analyseprozess ist wichtig, weil die sich bietenden Potentiale können zwar für alle Arten von Domains und Anwendungen vermutet, aber (noch) nicht definieren werden.
Dazu müssen:
1. Die unstrukturierten Kundenkonversationen in allen Kanälen in die Analyseprozesse miteinbezogen werden und
2. Automatische Prozesse aufgebaut werden, die befähigt sind solche Konversationen zu verstehen, zu analysieren um anschliessend aus denen solche Informationen zu ermitteln, die nach der Zusammenführung mit den Ergebnissen der Analyse der strukturierten Daten dazu geeignet sind, richtige Schlüsselentscheidungen zu treffen.
scopeKMKnowledge Management
Allumfassende Extraktion -die Aufgabestellung
Allumfassende Extraktion -es wird ein System aufgebaut, das nicht nur das Erwartete, sonder einfach alles extrahiert!
Das System sequenziert den Text in Aussagen.
Die Aufgabe:
• Gibt es “die wichtigste Aussa-ge” und falls ja, welche ist sie?
• Gibt es einen “Ausreisser”, einen “driver” gemäss demAnsatz “I don’t know what I’m looking for, but I’ll know it when I see it.” ?
scopeKMKnowledge Management
Die Syntaxanalyse
Der 1. (Teil-)Satz:
„Jack bought a sweater last Monday“
scopeKMKnowledge Management
Syntaxanalyse / Parsing� Mit Parsing wird ein Diagramm des Textes erstellt, zwecks Identifikation
• seiner grammatikalischen Bestandteilen (Hauptwort /Nomen, Eigenschaftswort / Adjektiv, Fürwort /Pronomen, Verb usw.) und
• der Rollen einzelner Worte innerhalb des Satzes.
� Jeder Satz des Dokuments wird nach dem Abschluss des Parsens strukturiert als eine Serie von Nominalphrasen (Noun Phrases, NPs), Verbalphrasen (Verb Phrases, VPs), Präpositionalphrasen (Prepositional Phrases, PPs), Satzteilen (Clauses) usw.
� Der Output zeigt die Wortarten (part of speech) für jedes Wort des Satzes (Subjekt, Objekt usw.), die Struktur des die Worte beinhaltenden Ausdrucks, Kategoriedes Verbs (Aktiv, Passiv) usw.
Linguistische Analyse� Die linguistische Analyse befasst sich mit der Analyse der Sprache auf der Wort-
und Satzebene, der Rollen und Beziehungen betreffend – z.B. wer hat wem was getan.� Die semantische Analyse befasst sich mit der Analyse auf der Bedeutungsebene.
scopeKMKnowledge Management
Das Satz-Diagramm
Das Satzdiagramm mit den Konstituenten des (Teil-)Satzes:
• Das Subjekt: der Käufer (Jack) > 1.Nominalphrase
• Das Objekt: der Artikel (a sweater) > 2. Nominalphrase
• Die aktive Verbalphrase mit: o Adverbialphrase: die Zeit
(last_ Monday)o das Verb bought als der
„Driver“ des Anlasses
Es wird ein Extraktionsmuster angewendet, um den Anlass (Hier: der „Kauf“) zu identifizieren und seine Konstituenten festzulegen.
scopeKMKnowledge Management
Event map
Die Ereigniskarte:
• Jack > der Akteur • a sweater > der Gegenstand • last_ Monday > die Zeit
�bought: Vorstellung der Kaufaktion als den Antreiber des Anlasses
�Der “traditionelle” Weg der Informations-Extraktion
scopeKMKnowledge Management
Analyse eines unerwarteten Ereignisses
Der 2. (Teil-)Satz:
„Jack ate a pickle sandwich“
Das Satzdiagramm des zweiten des 2. (Teil-)Satzes:
• passt zu keinem vordefiniertem Ereignismuster, d.h.
• kein Hinweis auf irgend welche Rollen, wie z.B. Käufer, Artikel usw.
� Erst die Analyse gibt Auskunft darüber, ob die Aussage relevant ist oder nicht.
scopeKMKnowledge Management
Der Begriff „Thematische Rolle“
� Der Begriff „Thematische Rolle“ stellt wichtige Komponente der Lösung Allumfassende Extraction dar.
� Bestimmung der thematischen Rolle ist die Methode zur Identifizierung eines bestimmten Rollenträgers in einer Aktion, ohne die Syntax des Satzteiles zu berücksichtigen, in welcher die Aktion stattfindet.
� Mit der Bestimmung der thematischen Rollen wird definiert: o der/die Spieler / Akteur(-e), der/die die Aktion zum Laufen bringt(-en)o die Objekte der Aktiono die Rezipienten / die Empfängero die Erfahrenden / Akteure, die eine Rolle spielen aber nicht die Empfänger sindo die Hilfsmittel, die man zur Durchführung der Aktion benützto das Datum, wann eine Aktion stattfindet und o der Ort, wo eine Aktion stattfindet.
scopeKMKnowledge Management
Anwendung der thematischen Rollen
Handlungsrichtung vs. thematische Rolle:
• was eaten > passive Verbalphrase• Jack > Teil der Propositionalprase• a pickle sandwich > das Subjekt
� Jack ist hier zwar kein Subjekt sondern ein Konstituent der Aktion, verbleibt aber –richtigerweise – in seiner thematischen Rolle als der Akteur, die Person, die die Aktion ausführt.
� Das Lösungsprinzip: Die thematischen Rollen – der Akteur, das Objekt, die Aktion, das Hilfsmittel, das Datum, die Uhrzeit usw. – werden durch die Lösung für jeden untersuchten Satz ermittelt und angewendet!
Der 3. (Teil-)Satz:
„A pickle sandwich was eaten by Jack“
scopeKMKnowledge Management
Information Extraction als Ereignisstabelle
Strukturierung des Fliesstextes
• Der Fliesstext wird nach thematischenRollen tabellarisch strukturiert
• Ersichtlich sind die Ergebnisse aus bekannten Ereignissen (hier:
• „Giftingt Event“):o „bought“: der Trigger des Anlasseso Struktur: Thematische Rolle,
Repräsentation, Extraktion• Auswertungen mit BI-Tools möglich• Nicht ersichtlich: explizit nicht gesuchte
Ereignisse (hier: „Eating Event“)
scopeKMKnowledge Management
Allumfassende Extraktion als die Tabelle der Triples
Tabelle aller Ereignisse (Triples):
• Alle Informationen zu Fakten und ihren Beziehungen verknüpft
• Ersichtlich: alle, auch nicht gesuchte Ereignisse
scopeKMKnowledge Management
Semantische Analyse (1)� Die semantische Analyse befasst sich mit der Analyse auf der
Bedeutungsebene.
ExhaustiveExtraction
Engine
Named Entities
Events
Facts, Relationships (FRN)
Triples
ExtraktionsprozessNamed Entities
Person: Jack
Person: girlfriend
Item: sweater
Date: Monday
Benennungen (Named Entities):
Generell: Gruppe von Hauptwörtern
Die Engine extrahiert die Benennungen von Menschen, Orten, Produkt-/Firmennamen, Datums usw.
scopeKMKnowledge Management
Semantische Analyse (2)
ExhaustiveExtraction
Engine
Named Entities
Events
Facts, Relationships (FRN)
Triples
Extraktionsprozess
Events
Ereignisse (Events):
Generell: Extraktion von Angaben über Ereignisse gemäss den definierten bzw. vordefinierten Mustern; Inhalte meistens sehr reichhaltig.
Hier: Fünf Slots mit Attributen
scopeKMKnowledge Management
Semantische Analyse (3)
Extraktionsprozess
Fact-Relationship-Network (FRN)
• Mit FRN werden Doubles – Fakten-Paare – extrahiert.
• Jeder Teil der beiden Boxen stellt einzig-artige Tatsache dar, nach dem Prinzip:„wer hat (wem) was (an-)getan“.
• Die beiden Faktenpaare sind über die Agentenbeziehung miteinander ver-knüpft.
ExhaustiveExtraction
Engine
Named Entities
Events
Facts, Relationships (FRN)
Triples
Facts, Relationships (FRN)
FactElement Mode
sweater buy
Fact
ModeJack
Element
Agent„Jack bought a sweater”
scopeKMKnowledge Management
Semantische Analyse (4)
Triples:
• Alle Informationen zu Fakten und ihren Beziehungen verknüpft
• Triple: Struktur aus einem „Subjekt“, einem „Prädikat“ (oder „Eigenschaft“) und einem „Objekt“ (oder Eigen-schaftswert“)
• Die Lösungs-Repository: alle möglichenSubjekt-Objekt-Beziehungen
Extraktionsprozess
ExhaustiveExtraction
Engine
Named Entities
Events
Facts, Relationships (FRN)
TriplesTriples
Jack buy a swetar
T1 T2 T3
Triple ID 1
Jack eat a pickle sendwich
T1 T2 T3
Triple ID 3
scopeKMKnowledge Management
Strukturierung nach den Triples
• Allumfassende Extraktion: Tabellarische Anordnung aller im Fliesstext gefunde-nen Triples, ohne Prioritätssetzung
• Mit BI-Tools bearbeitbare Tabelle
� Gewährleistung des Prinzips: “I don’t know what I’m looking for, but I’ll know it when I see it.”
Allumfassende Extraktion als die Tabelle der Triples
scopeKMKnowledge Management
Allumfassende Extraktion –Darstellung der Ergebnisse
Wertvolles aus Wertvolles aus bekannten Tatsachen
Nicht Wertvolles Nicht Wertvolles aus bekannten
Tatsachen
Unbekannte Tatsachen
Extraktion Engine
Filtering
Die Extraktion-Engine liefert:
• Wertvollen Erkenntnisse aus als bekannt qualifizierten Tatsachen
• Ergebnisse aus als bekannt qualifizier-ten Tatsachen, ohne einen momentan erkennbaren Nutzwert
• Möglicherweise wertvolle Erkenntnisse aus bislang unbekannten Tatsachen
� Funktion des Frühwarnsystems
� Das wirkliche Nutzen des EE-Systems: Sehen etwas was man nie erwarten würde.
scopeKMKnowledge Management
Tonalität der Verbalphrase� Schon eine geringe Nuancierung der Verbalphrase – der Stimmungen – kann zu einer
wesentlichen Veränderung der Semantik des Satzes führen.
� Die Attensity Engine ruft das Analyse-Tool auf, sobald sie unterschiedliche Stimmungen erkennt. Sie werden dort systematisch dargestellt und können berücksichtigt werden.
Beispiel:
Der Kunde mag das Produkt Der Kunde mag das Produkt nicht Negation [nicht] Kein Kunde mag das Produkt Negation [nicht]Der Kunde mag das Produkt einigermassen Verkleinerung [weniger]Der Kunde mag das Produkt wirklich Vergrösserung [mehr]
scopeKMKnowledge Management
Stimmungs-Typ BeispielErweiterndZur Erweiterung der Bedeutung zum Superlativ(wirklich unglücklich, ernst beleidigt, echt aufgeblasen)
Das Ding war schrecklich schön.Fakt: Das Ding: schön [mehr]
VerminderndZur Verkleinerung oder Eingrenzung der Bedeutung, mindere Erwartung
Das Gerät funktioniert kaum.Fakt: Das Gerät: funktioniert [minder]
DringendZeigt dringende Art des Feedbacks / der Anfrage auf (jetzt beheben, reparieren ASAP)
Bitte den Kunden sofort anrufenFakt: Den Kunden : anrufen [ASAP]
WiederholendDie Aktion fand bereits (mehrmals) statt (versuchte zu reparieren, drei mal, noch immer)
Mein Webbrowser funktioniert oft nicht.Fakt: Webbrowser : funktioniert nicht [wieder]
Unter VorbehaltWenn/dann
Wenn er das Call Center anruft, dann können wir das Problem lösenFakt 1: Call_Center : Anruf [wenn/dann]Fakt2: Problem : lösen [wenn/dann]
UnbestimmtZeigt Unsicherheiten auf (könnte funktionieren)
Der Kunde könnte abwandern.Fakt: Der Kunde : abwandern [vielleicht]
VorsätzlichZeigt Absichten oder Sehnsüchte auf(möchte bestellen, will kündigen)
Ich möchte das Produkt XYZ bestellen.Fakt: Das Produkt XYZ : bestellen [Absicht]
FragendFrageform, Anfrage betr. Ware, Dienste, Information, Instruktion
Hat Ihre Abteilung meine Anfrage erhalten?Fakt: Die Anfrage : erhalten [?]
NegativNegiert die Bedeutung des Modus‘
Er hat das Gerät nie repariert.Fakt: Das Gerät: repariert [nie]
Die Stimmungs-Typen
scopeKMKnowledge Management
Stimmungen und Beziehungen
Sie beantworten [wenn/dann][nicht] E-Mail
T1 T2 T3
Triple ID 1
Ich kündigen [dringend][wenn/dann] der Vertrag
T1 T2 T3
Triple ID 2
„Wenn Sie meine E-Mail nicht beantworten, kündige ich sofort den Vertrag“
beantworten [wenn/dann][nicht] : E-Mail kündigen [dringend] [wenn/dann] : der Vertrag
Wichtig: Unterschiede in Stimmungen verstehen, die den Unterschied ausmachen.Aufgabe: Stimmungen und Beziehungen in den Social Media begreifen.
scopeKMKnowledge Management
Slanguage
� Slanguage ist eine neue, andere Sprache zur Definition der Merkmale in den Social Media.
� Slanguage kann dramatisch beeinflussen die Genauigkeit eines textanalytischen Werkzeugs:
� Autorschaft � jedermann wird zum Autor
�Ist charakterisiert durch
• Verspieltheit: Abk�rzungen (r u ok?), Umschreibungen (chin.: X = sch), neue Begriffe in Tweets und Facebook (Bitcoin u.�.)
• Personalisierung: Emoticons (Smily), Facebook mit Like/Don�t Like, Ersetzen von Schriftarten (� = Phi)
• eigene Gesinnung: Sarkasmus (�Danke f�r die schnelle Zusendung nach nur f�nf Tagen�) > f�r Computerlinguistik sehr anspruchsvoll, Obsz�nit�ten (extrem mehrdeutig f�r ein und dasselbe Wort)
• Konversationsorientiert: Schnelles Themenwechsel, Einfluss des Milieus
scopeKMKnowledge Management
Slanguage-Wörterbücher
� Slanguage enthält eine Reihe von eher positiver Herausforderungen unterschiedlichster Schwierigkeitsgrade.
� Die Slanguage-Wörterbücher können zwar nie abgeschlossen sein, werden aber ständig aktualisiert, womit viele neue Themenbereiche erfolgreich erschlossen werden können.
� Solche Wörterbücher stehen unseren Kunden zum Erwerb zur Verfügung.
scopeKMKnowledge Management
Semantic Annotation Server
Conversion
Collection
Format Handling
Other Process Hooks
Alerting
Conversion
DatabaseLoading
Other Process Hooks
SemanticAnnotation
Server
Analysis & Reporting
Facts, Triples, Entities, Concepts etc.
E-Mails
Files
WWW
CRM
SFA
Surveys
Imports
DB2
Oracle
MySQL
Teradata
JDBC
XML
CSV
Exports
Knowledge Engineering Workbench (KEWB)
FB
scopeKMKnowledge Management
Conversion
Collection
Format Handling
Other Process Hooks
Alerting
Conversion
DatabaseLoading
Other Process Hooks
SemanticAnnotation
Server
Analysis & Reporting
Facts, Triples, Entities, Concepts etc.
E-Mails
Files
WWW
CRM
SFA
Surveys
Imports
DB2
Oracle
MySQL
Teradata
JDBC
XML
CSV
Exports
Knowledge Engineering Workbench (KEWB)
FB
WebScrapers
TwitterFeeds
WebCrawlers
Plug-ins für Suchanfragen an externe Web-basierte Suchmaschinen zum Herausziehen von für die anschlies-sende Analyse interessanten Inhalten, auch aus dem sog. Deep Web, z.B. Produkt-Reviews.
Plug-in direkt ins Twitter-“Firehose“ (Data Stream), um mit geeigneten Begriffen die für die Firma sinnvolle Tweets zu extrahieren.
Automatisches und regelmässiges Durchsuchen des Internets, Retrieval, internes Speichern und das Indizieren von Inhalten der Social Media, um spätere Auswertung zu ermöglichen.
FB Search
Nach der Eingabe eines Unterneh-mensprofils werden im Kontext ste-hende Posts, Kommentare, Umfrage-ergebnisse und andere öffentlich zugängliche Beiträge bereitgestellt.
Umgang mit externen Informationen
scopeKMKnowledge Management
CRM
Surveys
SemanticAnnotation
Server
EnterpriseData
Warehouse
3rd Party Business
Intelligence
AttensityAnalysis &Reporting
Voice of the Customer (VoC) –mit EDW
Text
Was hat man gesagt
Wer sind sieWas kauften sie
Wann kauften sie esWieviel haben sie bezahltWo haben sie es gekauft
Wie ist das Customer Value
StrukturierteFelder
�Leistungsstarke Analyse durch die Kombination der Textextraktion mit den bestehenden DWH-Informationen
scopeKMKnowledge Management
Danke für Ihre Aufmerksamkeit !
Juraj Schick, scopeKM GmbH, Zü[email protected]: +41 (0) 44 361 62 62M: +41 (0) 76 412 58 01