themen- und trenderkennung in agenturmeldungen, lswt2013

Post on 26-Jun-2015

347 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

information extraction, modelling and storage of semantic data to recognize trending topics for journalism and newspaper offices

TRANSCRIPT

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Martin Voigt, Michael Aleythe, Peter Wehner

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 1

Motivation

Newsroom

Montag, 23.09.2013 Topic/S @ LSWT Slide 2

Quelle: ringier.com

Problem

Überwältigende Datenmenge für den Redakteur

z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)

Montag, 23.09.2013 Topic/S @ LSWT

DPA

Reuters

KNA

Twitter

Facebook

Blogs

Nachrichtenagenturen Web, Social Media

In-house Produktion

Archive

Online

Slide 3

Vision

Automatische Themenerkennung unter Verwendung von Named Entities und anderen Stichworten (SemItem)

Identifikation von Thementrends

Information-Push statt Pull

Montag, 23.09.2013 Topic/S @ LSWT

MA1

E1

E2

E4

E3

E7

E6

E5MA2

Media Assets

Named Entities

Pre-Processing

MA1

E1

T1E2

E4

E3

E7

E6

T2

T3

E5MA2

Media Assets

Named Entities

Topics

Pre-Processing Post-Processing

Slide 4

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow Überblick Informationsextraktion Speicherung Themenerkennung

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 5

Workflow

Montag, 23.09.2013 Topic/S @ LSWT Slide 6

Mehr in [Voigt2013]

Search Post-Processing

Pre-Processing

Data Storage

1

2

34

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Slide 7

Source: onelanguageoneposter.com Pre-Processing

Language Detection

Wordlist-based NER

Statistical NER

Categorizer

1

Dis

amb

igu

atio

n

Agentur Genauigkeit

KNA 80,3 %

DPA 94,4 %

EPD 80,3 %

Reuters 90,8 %

OTS 93,5 %

AFP 86 %

Informationsextraktion

Montag, 23.09.2013 Topic/S @ LSWT

Spracherkennung (DE, EN) Regelbasiert

Kategorisierung Quellenabhängig

Named Entity Recognition Wortlisten- & Statistik-basiert

Disambiguierung interne & externe Datenbasis

Slide 8

Source: onelanguageoneposter.com Pre-Processing

Language Detection

Wordlist-based NER

Statistical NER

Categorizer

1

Dis

amb

igu

atio

n

Semantische Fakten

Keine Wortlisten für NER!

preferred und alternative Namen vorgehalten

ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller

Namen: Rene Muller, Rene Müller, René Muller, René Müller

Triples ohne SemItems: 31,3 Mio.

Montag, 23.09.2013 Topic/S @ LSWT Slide 10

SemItem Anzahl (alternative Namen)

Person 1.504.341 (2.499.962)

Organization 63.332 (98.127)

Place 89.702 (95.178)

Keyword 1351

Speicherung

Oracle 11gR2

Benchmark von Triple Stores [Voigt2012]

Pros

Bereits im Unternehmen für große Datenmengen im Einsatz

Integrierte Anfrage an relationale und semantische Daten

Cons

Inferenz

Unvollständiger SPARQL 1.1 Support

Einsatz von eigenen Regeln kaum möglich

Montag, 23.09.2013 Topic/S @ LSWT Slide 11

Quelle: musingmonika.com

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Clustering

hierarchisches, agglomeratives Verfahren

Grundlage: Artikel und deren Entitäten

Eigenimplementierung aufgrund spezieller Herausforderungen

Ausführung und Zusammenfassung im Intervall

Slide 12

Euro

Entschädigung

Bundesgerichtshof

Urteil

LufthansaMilliarde

Auftrag

Alternative für Deutschland

Bundestagswahl

UmfrageDeutschland

Top-Cluster (vom 19.09.2013)

Themenerkennung

Montag, 23.09.2013 Topic/S @ LSWT

Artikel 5 wichtigsten SemItems HotTopic

68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein

52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja

44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl / SPD

Ja

32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar / USA

Ja

28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja

26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja

22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja

18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja

15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja

Slide 13

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 14

Live Demo

Montag, 23.09.2013 Topic/S @ LSWT Slide 15

Struktur

Motivation, Probleme und Ziele

Topic/S Workflow

Demo

Zusammenfassung

Montag, 23.09.2013 Topic/S @ LSWT Slide 16

Sum it up!

Ergebnis

Themenerkennung und Präsentation gegenüber dem Redakteur

Lessons learned

NER: Schlecht für Non-English, Kombination notwendig

Stete Modeloptimierung hinsichtlich der Anfragen

Spezielle UI notwendig

Mögliche, nächste Schritte

„Vorhersage“ von Themen aufgrund von kausalen und temporalen Beziehungen

Montag, 23.09.2013 Topic/S @ LSWT Slide 17

Quelle: ooltapulta.com

http://www.w3.org/community/swisig/

Sächsische AufbauBank Forschung und Entwicklung - Projektförderung Projektnummer - 99457/2677

http://topic-s.de/

Danke! Fragen?

http://topic-s.de/

Quellen

[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple Store Benchmark? Practical Experiences with Real-World Data Proc. of. the 2nd International Workshop on Semantic Digital Archives (SDA), 2012

[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards Topics-based, Semantics-assisted News Search. Proceedings of the 3rd International Conference on Web Intelligence, Mining and Semantics (WIMS'13), ACM,2013

Montag, 23.09.2013 Topic/S @ LSWT Slide 19

Workflow: Preprocessor

Montag, 23.09.2013 Topic/S @ LSWT

Named Entity Recognition

word list

Tool: LingPipe + Extension

Sources: LOD (DBPedia, Geonames, YAGO2, GND)

Advantages: controlled vocabulary, guarantied recognition of entities

statistics

Tool: Stanford NLP

Source: pre-trained model

Advantage: Recognition of unknown entities

Slide 20

Quelle: churchthought.com

Workflow: Preprocessor

Montag, 23.09.2013 Topic/S @ LSWT

Keywords

Lemmatization

Developing a word list

Extraction using the word list

Bonus: frequent terms of an article

Slide 21

Quelle: hugdaily.org

Disambiguation

Montag, 23.09.2013 Topic/S @ LSWT Slide 22

Quelle: fansshare.com Quelle: lounge.espdisk.com

Quelle: de.wikipedia.org

Disambiguation

Problem: not all SemItems available in the LOD

Montag, 23.09.2013 Topic/S @ LSWT

Michael Jackson

Beer

Michael Jackson

Beer

Whiskey

Michael Jackson

Music

King of Pop

Internal Facts

External Facts (DBpedia, etc.)

Identification of Entity Cluster

Slide 23

top related