newsstream 3.0 – big-data-infrastruktur für journalisten
TRANSCRIPT
Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten
Symposium BigData Haus des Rundfunks, Berlin 18. Juni 2015 Dr. Gerd Kamp Leiter dpa-newslab / Chief Technology Scout dpa
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
• dpa-newslab
• news|stream Projektübersicht
• Motivation dpa / Kompetenzen neofonie
• Aktuelle Demonstratoren & “Epics"
2
Agenda
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab
3
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Übersicht
R & D Einheit der dpa Gruppe, seit 2009
Kleines Team
• Vorwiegend Informatiker/Entwickler + Entwicklungsredakteur / Datenjournalist + Graphiker
Arbeitsweise
• Demos not Memos
4
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Schwerpunkt Development
• NewsApps für Nachrichtenprofis
• APIs für dpa / dpa-infocom Inhalte
• Clients / Apps / kundenspezifische Formate
5
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Schwerpunkt Research
Formate, Workflows & APIs für (Meta-)Daten im Bereich Nachrichten
Zusätzliche Metadaten
• z.B. Geo-Metadaten, Bildschwerpunkte für Fotos
Nutzung dieser Metadaten für
• Suche (z.B. Faceted-Search)
• Präsentation, Layout, IA, UX
6
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Überblick news|stream
7
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Hauptziel des Projekts
Das Hauptprojektziel istdie echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen und die gleichzeitige Anreicherung mit bereits verarbeiteten und archivierten, strukturierten Nachrichtendaten, sowie mit externen Wissensbasenaus der Linked-Open-Data-Welt.
8
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Projektkonsortium
Technikpartner
• Fraunhofer IAIS (Konsortialführer, Schwerpunkt: Audio, Ansprechpartner Dr. Daniel Stein )
• neofonie GmbH (Schwerpunkt: Text, Ansprechpartner: Peter Adolphs)
Anwendungspartner
• Deutsche Welle (Schwerpunkt: Audio, Ansprechpartner: Cosmin Cabulea)
• dpa (Schwerpunkt: Text, Ansprechpartner: Dr. Gerd Kamp)
Laufzeit: 09/2014 - 08/2017
newsstreamproject.org, @wearenewsstream
9
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Projektziele
Ziel 1
• Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von heterogenen Nachrichtenströmen
Ziel 2
• Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten
Ziel 3
• Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen Nachrichtenumgebungen
10
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Anwendungsszenarien
Szenario 1 (DW)
• Unterstützung der journalistischen Arbeit mit Big Data durch automatisches Filtern und Aggregieren verschiedener Quellen
Szenario 2 (DW):
• Computer-Assisted Reporting 3.0
Scenario 3 (dpa):
• Bewältigung von Big Data im hektischen Tagesgeschäft
11
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Szenario 3: Bewältigung
Unterstützung beim Information Overload bei "Großlagen"
Aktualisierung / Pflege von Hintergründen und Fakten
Monitoring von Online und SocialMedia, Archivsuche
Scouting nach neuen Themen, neuen Blickwinkeln/Aspekten
12
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Motivation dpa-newslab / dpa für Newsstream 3.0
13
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Neues Format: Von IPTC7901 / NITF zu NewsML G2
Mit Abstand das größte Projekt der dpa in den letzten Jahren
Beinhaltet Entwicklung und Roll-Out eines neuen Redaktionssystems (1,5 x)
• Roll-Out erste Version 2012 / 2013
Struktur in den Meldungen
• Mehr Metadaten,
• Semantisches HTML für die Auszeichnung des Inhaltes
• Einheitliches Format
• Kuratierung (Text-Bild-Verknüpfung, Themenpakete, Rubrikenpakete, Terminpakete, …)
14
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Neues Format: Von IPTC7901 / NITF zu NewsML G2
newslab seit 2012 involviert
Rolle:
• Erster Kunde des Formates
• Nutzung des Formates zum Bau von Apps und APIs
• Feedback an Formatentwickler und Definition des semantischen HTML der Artikel
15
Format: Archive < 1983Digitalisierter Mikrofilm
16Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Aktuelles BasisdienstformatImmer noch IPTC7901
17Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
^Ahsh0008 3 vm 205 lno 0039^M Leute/USA/Deutschland/^M ^B(Medien-Info)^M Zeitung: Robert Redford hat in Hamburg geheiratet^M (Mit Bild) =^M Hamburg (dpa) - Hollywood-Star Robert Redford (72) hat nach^M Informationen des «Hamburger Abendblatts» seine langjährige Freundin^M Sibylle Szaggars (51) in Hamburg geheiratet. Die Trauzeremonie mit^M etwa 30 Gästen sei am vergangenen Samstag im engsten Familienkreis im^M Hotel «Louis C. Jacob» gefeiert worden, berichtet das Blatt am^M Mittwoch. Dort habe das Paar mehrere Tage gewohnt. Zuvor hatte es^M demnach bereits standesamtlich geheiratet. Der Oscar-Preisträger^M Redford und die Malerin Szaggars sind seit 1996 liiert. Für beide ist^M es nicht die erste Ehe. Szaggars ist gebürtige Hamburgerin, lebt aber^M seit vielen Jahren in den USA. Eine weitere Hochzeitsfeier will das^M frisch getraute Paar laut Zeitung im September in Mexiko feiern.^M …. dpa gth yyzz n1 gth^M ^C150500 Jul 09 ^MText
2010 dpa-NotizblockMarkdown um XHTML in ASCII zu tunneln
18Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
# dpa-Notizblock ## Berichtigung- Im Zeile 4 wurde geändert: Vier-Raum-Wohnung (statt: Drei-Raum) ## Achtung- Zusammenfassung folgt - 20 Zl bis 1400 ## Internet - [Studie zum Wohnungsmangel in Deutschland](http://dpaq.de/VZRVW) - [Daten zum Wohnen](http://dpaq.de/dgheZh)
## Orte - [SP Eduard Pestel Institut für Systemforschung](Königstr. 50a, 30175 Hannover)
## Service - [Studie zum Wohnungsmangel](Meier-Verlag 2009. 300 S. Euro 35,00, ISBN:300356756)
## Hinweise - RegioData: Angebot von Regiodata zum Wohnungsmarkt in Deutschland
* * * * Die folgenden Informationen sind nicht zur Veröffentlichung bestimmt ## Ansprechpartner - x. xxxxxx, im Eduard Pestel Institut für Systemforschung, 0511/xxxxx-xx [email protected] ## Autoren/Kontakt - Andreas Meyer <[email protected]> und Klaus Müller, [email protected] - Bearbeiter: Hans-Jürgen Ehlers Tel. 040/4113-xxxxx, [email protected]
dpa am/km yyzz eh
Aktuelles OnlineformatNITF 3.0
19Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
NewsML G2 Textwire Textfunk
20
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
NewsML G2 Textwire Textfunk
21
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /1
Newsroom Workflows
• Verwendung von BigData-Technologien zum effizienten Filtern /zur effizienten Recherche.
• Übergreifend über die aktuelle Produktion , das Archiv, sowie Onlinemedien und / soziale Medien
22
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /2
Effiziente Workflows zur Anreicherung der Nachrichten „an der Quelle“
• Daten, Metadaten, Wissen
• Semi-automatisch durch Unterstützungssysteme,
• Journalist / Nutzer im „Driver Seat“, Algorithmen machen Vorschläge
Technologien: NLP, Textmining, Klassifikation, …
23
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Von Entwicklern / Entwicklertools lernen
Leitbilder:
• Konfigurierbare Dashboards, Facettierte Suche
• Integrated Authoring Environment
• Github / Gist for News
24
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Kompetenzen & Technologien
25
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Kompetenzen
Big Data
• Textmining auf großen Datenmengen seit > 5 Jahren
Textanalyse API (TXT Werk)
• Extraktion von Metadaten mit linguistischen und statistischen Verfahren
26
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie : Big-Data-Technologien
Realisierung der Big-Data-Plattform auf Entwicklungscluster mit 16 Nodes (100 TB Speicherkapazität)
• Apache Spark: Batchverarbeitung und Spark Streaming
• Suchintegration über Cloudera Search/Apache Solr
• Konfigurierbare Dashboards mit “Banana”
27
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Textanalyse
TXT Werk API (http://txtwerk.de/)
• Entitätenerkennung und -verlinkung
• Erkennt Personen,Orte, Organisationen, Jobtitle und Events
• Verlinkung mit LInked-Open-Data-Quellen (Freebase/Wikidata)
• Erkennung unbekannter Personen und Orte mit maschinellen Lernverfahren
• Extraktion der wichtigsten Schlüsselwörter mit statistischen Verfahren
• Klassifikation nach Nachrichtenressorts
• Automatische Zitaterkennung mit rudimentärer Quellenerkennung
• Datumserkennung inkl. Auflösung von Begriffen wie "morgen"
28
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Aktuelle Demonstratoren & „Epics“
29
"Epic": Sprecher- / EreigniserkennungSoftware analysiert live-Audio und reagiert, wenn bekannte Sprecher auftauchen Auch möglich für beliebige Live-Daten (Dax, Rheinpegel)
ENTWURF
30Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
"Epic": O-Ton-ZuordnungRedakteur markiert Zitat im Text, Software ordnet Audio-Schnippsel zu
ENTWURF
31Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
"Epic": “named entities”-Verlinkung Schlagworte, Orte, Personen, Zitate, Organisationen werden erkannt und vorgeschlagenVerlinken mit dpa und anderen Quellen
32Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
ENTWURF
EPIC: Bilden von ThemenbündelnTextähnlichkeit dpa Subjects & Keywords, Themenpakete neofonie Klassifikatoren und Schlagwörtern
ENTWURF
33Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Demonstrator: Vergleich von Texten
Text-Alignment
CVS / diff / 3-way merge
34Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
"Epic": Twitter-Statistik “Live”#Hashtag oder Wort-Statistik im Zeitverlauf
ENTWURF
35Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/
36Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Demonstrator: Twitter-Dashboardhttp://newsstreamproject.org/werkstattbericht-no-1/
37Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Danke
Dr. Gerd Kamp
@gkamp
38
UmsetzungArchitektur
Archivierte,multimediale
Nachrichteninhalte
Dynamische Nachrichtenströme
Analyse von unstrukturierten
Daten
Aggregierte Metadaten
Kontextualisierung & semantische
Analyse Anreichern
Filtern
IndexierenSemantische Suche undVerwendung von Inhalten
Audio undVideo
RSS Feeds& Websites
Social Streams
Linked & Sensor Data
Newsroom
Batch Layer
Speed Layer
39Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Umsetzung: Lambda-Architektur
Batch Layer
• Batch Function: Prozessierung aller gesammelten Original-Daten
• Batch View: Aufbereitung zur Präsentation der Berechnungs-Ergebnisse
• Batch-Prozesse werden zyklisch wiederholt
Speed Layer
• Unmittelbare Verarbeitung von einkommenden Daten
• Prozessierung zur Präsentation in der Anwendung
• Überbrückung der Batch-Laufzeiten
40