newsstream 3.0 – big-data-infrastruktur für journalisten

40
Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten Symposium BigData Haus des Rundfunks, Berlin 18. Juni 2015 Dr. Gerd Kamp Leiter dpa-newslab / Chief Technology Scout dpa

Upload: gkamp

Post on 13-Aug-2015

787 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Symposium BigData Haus des Rundfunks, Berlin 18. Juni 2015 Dr. Gerd Kamp Leiter dpa-newslab / Chief Technology Scout dpa

Page 2: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

• dpa-newslab

• news|stream Projektübersicht

• Motivation dpa / Kompetenzen neofonie

• Aktuelle Demonstratoren & “Epics"

2

Agenda

Page 3: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab

3

Page 4: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Übersicht

R & D Einheit der dpa Gruppe, seit 2009

Kleines Team

• Vorwiegend Informatiker/Entwickler + Entwicklungsredakteur / Datenjournalist + Graphiker

Arbeitsweise

• Demos not Memos

4

Page 5: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Schwerpunkt Development

• NewsApps für Nachrichtenprofis

• APIs für dpa / dpa-infocom Inhalte

• Clients / Apps / kundenspezifische Formate

5

Page 6: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

dpa-newslab: Schwerpunkt Research

Formate, Workflows & APIs für (Meta-)Daten im Bereich Nachrichten

Zusätzliche Metadaten

• z.B. Geo-Metadaten, Bildschwerpunkte für Fotos

Nutzung dieser Metadaten für

• Suche (z.B. Faceted-Search)

• Präsentation, Layout, IA, UX

6

Page 7: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Überblick news|stream

7

Page 8: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Hauptziel des Projekts

Das Hauptprojektziel istdie echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen und die gleichzeitige Anreicherung mit bereits verarbeiteten und archivierten, strukturierten Nachrichtendaten, sowie mit externen Wissensbasenaus der Linked-Open-Data-Welt.

8

Page 9: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Projektkonsortium

Technikpartner

• Fraunhofer IAIS (Konsortialführer, Schwerpunkt: Audio, Ansprechpartner Dr. Daniel Stein )

• neofonie GmbH (Schwerpunkt: Text, Ansprechpartner: Peter Adolphs)

Anwendungspartner

• Deutsche Welle (Schwerpunkt: Audio, Ansprechpartner: Cosmin Cabulea)

• dpa (Schwerpunkt: Text, Ansprechpartner: Dr. Gerd Kamp)

Laufzeit: 09/2014 - 08/2017

newsstreamproject.org, @wearenewsstream

9

Page 10: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Projektziele

Ziel 1

• Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von heterogenen Nachrichtenströmen

Ziel 2

• Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten

Ziel 3

• Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen Nachrichtenumgebungen

10

Page 11: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Anwendungsszenarien

Szenario 1 (DW)

• Unterstützung der journalistischen Arbeit mit Big Data durch automatisches Filtern und Aggregieren verschiedener Quellen

Szenario 2 (DW):

• Computer-Assisted Reporting 3.0

Scenario 3 (dpa):

• Bewältigung von Big Data im hektischen Tagesgeschäft

11

Page 12: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Szenario 3: Bewältigung

Unterstützung beim Information Overload bei "Großlagen"

Aktualisierung / Pflege von Hintergründen und Fakten

Monitoring von Online und SocialMedia, Archivsuche

Scouting nach neuen Themen, neuen Blickwinkeln/Aspekten

12

Page 13: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Motivation dpa-newslab / dpa für Newsstream 3.0

13

Page 14: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Neues Format: Von IPTC7901 / NITF zu NewsML G2

Mit Abstand das größte Projekt der dpa in den letzten Jahren

Beinhaltet Entwicklung und Roll-Out eines neuen Redaktionssystems (1,5 x)

• Roll-Out erste Version 2012 / 2013

Struktur in den Meldungen

• Mehr Metadaten,

• Semantisches HTML für die Auszeichnung des Inhaltes

• Einheitliches Format

• Kuratierung (Text-Bild-Verknüpfung, Themenpakete, Rubrikenpakete, Terminpakete, …)

14

Page 15: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Neues Format: Von IPTC7901 / NITF zu NewsML G2

newslab seit 2012 involviert

Rolle:

• Erster Kunde des Formates

• Nutzung des Formates zum Bau von Apps und APIs

• Feedback an Formatentwickler und Definition des semantischen HTML der Artikel

15

Page 16: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Format: Archive < 1983Digitalisierter Mikrofilm

16Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 17: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Aktuelles BasisdienstformatImmer noch IPTC7901

17Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

^Ahsh0008 3 vm 205 lno 0039^M Leute/USA/Deutschland/^M ^B(Medien-Info)^M Zeitung: Robert Redford hat in Hamburg geheiratet^M (Mit Bild) =^M Hamburg (dpa) - Hollywood-Star Robert Redford (72) hat nach^M Informationen des «Hamburger Abendblatts» seine langjährige Freundin^M Sibylle Szaggars (51) in Hamburg geheiratet. Die Trauzeremonie mit^M etwa 30 Gästen sei am vergangenen Samstag im engsten Familienkreis im^M Hotel «Louis C. Jacob» gefeiert worden, berichtet das Blatt am^M Mittwoch. Dort habe das Paar mehrere Tage gewohnt. Zuvor hatte es^M demnach bereits standesamtlich geheiratet. Der Oscar-Preisträger^M Redford und die Malerin Szaggars sind seit 1996 liiert. Für beide ist^M es nicht die erste Ehe. Szaggars ist gebürtige Hamburgerin, lebt aber^M seit vielen Jahren in den USA. Eine weitere Hochzeitsfeier will das^M frisch getraute Paar laut Zeitung im September in Mexiko feiern.^M …. dpa gth yyzz n1 gth^M ^C150500 Jul 09 ^MText

Page 18: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

2010 dpa-NotizblockMarkdown um XHTML in ASCII zu tunneln

18Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

# dpa-Notizblock ## Berichtigung- Im Zeile 4 wurde geändert: Vier-Raum-Wohnung (statt: Drei-Raum) ## Achtung- Zusammenfassung folgt - 20 Zl bis 1400 ## Internet - [Studie zum Wohnungsmangel in Deutschland](http://dpaq.de/VZRVW) - [Daten zum Wohnen](http://dpaq.de/dgheZh)

## Orte - [SP Eduard Pestel Institut für Systemforschung](Königstr. 50a, 30175 Hannover)

## Service - [Studie zum Wohnungsmangel](Meier-Verlag 2009. 300 S. Euro 35,00, ISBN:300356756)

## Hinweise - RegioData: Angebot von Regiodata zum Wohnungsmarkt in Deutschland

* * * * Die folgenden Informationen sind nicht zur Veröffentlichung bestimmt ## Ansprechpartner - x. xxxxxx, im Eduard Pestel Institut für Systemforschung, 0511/xxxxx-xx [email protected] ## Autoren/Kontakt - Andreas Meyer <[email protected]> und Klaus Müller, [email protected] - Bearbeiter: Hans-Jürgen Ehlers Tel. 040/4113-xxxxx, [email protected]

dpa am/km yyzz eh

Page 19: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Aktuelles OnlineformatNITF 3.0

19Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 20: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

NewsML G2 Textwire Textfunk

20

Page 21: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

NewsML G2 Textwire Textfunk

21

Page 22: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /1

Newsroom Workflows

• Verwendung von BigData-Technologien zum effizienten Filtern /zur effizienten Recherche.

• Übergreifend über die aktuelle Produktion , das Archiv, sowie Onlinemedien und / soziale Medien

22

Page 23: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /2

Effiziente Workflows zur Anreicherung der Nachrichten „an der Quelle“

• Daten, Metadaten, Wissen

• Semi-automatisch durch Unterstützungssysteme,

• Journalist / Nutzer im „Driver Seat“, Algorithmen machen Vorschläge

Technologien: NLP, Textmining, Klassifikation, …

23

Page 24: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Ansätze & Ideen (dpa) für newsstream: Von Entwicklern / Entwicklertools lernen

Leitbilder:

• Konfigurierbare Dashboards, Facettierte Suche

• Integrated Authoring Environment

• Github / Gist for News

24

Page 25: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Kompetenzen & Technologien

25

Page 26: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Kompetenzen

Big Data

• Textmining auf großen Datenmengen seit > 5 Jahren

Textanalyse API (TXT Werk)

• Extraktion von Metadaten mit linguistischen und statistischen Verfahren

26

Page 27: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie : Big-Data-Technologien

Realisierung der Big-Data-Plattform auf Entwicklungscluster mit 16 Nodes (100 TB Speicherkapazität)

• Apache Spark: Batchverarbeitung und Spark Streaming

• Suchintegration über Cloudera Search/Apache Solr

• Konfigurierbare Dashboards mit “Banana”

27

Page 28: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

neofonie: Textanalyse

TXT Werk API (http://txtwerk.de/)

• Entitätenerkennung und -verlinkung

• Erkennt Personen,Orte, Organisationen, Jobtitle und Events

• Verlinkung mit LInked-Open-Data-Quellen (Freebase/Wikidata)

• Erkennung unbekannter Personen und Orte mit maschinellen Lernverfahren

• Extraktion der wichtigsten Schlüsselwörter mit statistischen Verfahren

• Klassifikation nach Nachrichtenressorts

• Automatische Zitaterkennung mit rudimentärer Quellenerkennung

• Datumserkennung inkl. Auflösung von Begriffen wie "morgen"

28

Page 29: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Aktuelle Demonstratoren & „Epics“

29

Page 30: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

"Epic": Sprecher- / EreigniserkennungSoftware analysiert live-Audio und reagiert, wenn bekannte Sprecher auftauchen Auch möglich für beliebige Live-Daten (Dax, Rheinpegel)

ENTWURF

30Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 31: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

"Epic": O-Ton-ZuordnungRedakteur markiert Zitat im Text, Software ordnet Audio-Schnippsel zu

ENTWURF

31Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 32: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

"Epic": “named entities”-Verlinkung Schlagworte, Orte, Personen, Zitate, Organisationen werden erkannt und vorgeschlagenVerlinken mit dpa und anderen Quellen

32Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

ENTWURF

Page 33: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

EPIC: Bilden von ThemenbündelnTextähnlichkeit dpa Subjects & Keywords, Themenpakete neofonie Klassifikatoren und Schlagwörtern

ENTWURF

33Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 34: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Demonstrator: Vergleich von Texten

Text-Alignment

CVS / diff / 3-way merge

34Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 35: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

"Epic": Twitter-Statistik “Live”#Hashtag oder Wort-Statistik im Zeitverlauf

ENTWURF

35Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 36: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/

36Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 37: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/

37Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 38: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Danke

Dr. Gerd Kamp

[email protected]

@gkamp

38

Page 39: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

UmsetzungArchitektur

Archivierte,multimediale

Nachrichteninhalte

Dynamische Nachrichtenströme

Analyse von unstrukturierten

Daten

Aggregierte Metadaten

Kontextualisierung & semantische

Analyse Anreichern

Filtern

IndexierenSemantische Suche undVerwendung von Inhalten

Audio undVideo

RSS Feeds& Websites

Social Streams

Linked & Sensor Data

Newsroom

Batch Layer

Speed Layer

39Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Page 40: Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015

Umsetzung: Lambda-Architektur

Batch Layer

• Batch Function: Prozessierung aller gesammelten Original-Daten

• Batch View: Aufbereitung zur Präsentation der Berechnungs-Ergebnisse

• Batch-Prozesse werden zyklisch wiederholt

Speed Layer

• Unmittelbare Verarbeitung von einkommenden Daten

• Prozessierung zur Präsentation in der Anwendung

• Überbrückung der Batch-Laufzeiten

40