enp_onb_infday_gmuehlberger

24
Technische Aspekte der Zeitungsdigitalisierung Günter Mühlberger Universität Innsbruck Digitalisierung und elektronische Archivierung

Upload: europeana-newspapers

Post on 08-Jul-2015

328 views

Category:

Education


0 download

DESCRIPTION

Europeana Newspapers Austrian information day: presentation by Günter Mühlberger

TRANSCRIPT

Page 1: ENP_ONB_infday_GMuehlberger

Technische Aspekte der

Zeitungsdigitalisierung

Günter Mühlberger

Universität Innsbruck – Digitalisierung und

elektronische Archivierung

Page 2: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Vorstellung

• Digitalisierung und elektronische Archivierung (DEA)

• Seit Mitte der 90er Jahre Digitalisierung und OCR

• 2002-2012 Abteilung an der UB Innsbruck

• 2012 Neuverteilung der Aktivitäteten: Digitalisierung als kommerzielle Dienstleistung

über transidee GmbH (Technologietransferplattform der Universität Innsbruck

• Am Instiut für Germanistik: Forschung und Service im Bereich Digital Humanities

• Digitalisierungsprojekte

• Austrian Literature Online (seit 2002)

• Digitalisierung von Zeitungen für Tessmann Bibliothek

• Komplette Digitalisierung des Innsbrucker Zeitungsarchivs (2004-2006)

• Größtes in-house Digitalisierungsprojekt in Österreich: 1,8 KM deutsche Dissertationen

(2008-2011)

• Digitalisierung der Tiroler Tageszeitung (1945-2003)

• Texterkennung für 8 Mill. Zeitungsseiten im Rahmen von Europeana Newspapers

2

Page 3: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Agenda

• Vorüberlegungen

• Digitalisierung

• Metadaten

• Texterkennung

• Strukturerkennung

• Benutzung

• Archivierung

3

Page 4: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Vorüberlegungen

• In-house vs. Dienstleister

• Aufbau einer Digitalisierungseinheit?

• Digitalisierung als ständige Einrichtung vs. als Projekt

• Kombination

• Präsentationssystem bekannt?

• Hohes Risiko falls unbekanntes Präsentationssystem

• Falsche Vorstellungen auf Seiten der Auftraggeber

• Archivierung

• Wie sieht die finale Datenstruktur aus?

• Wie soll Archivierung erfolgen?

4

Page 5: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Rechte

• Urheberrecht

• Schöpferisches Werk vs. Faktenmeldung

• 70 Jahre nach dem Tod des Autors werden Nutzungen frei

• Persönlichkeitsrecht

• Öffentliche Personen

• Nicht-öffentliche Personen

• Digitalisierung = Vervielfältigung mit elektronischen Mitteln

• Begründet kein neues Urheberrecht

• Copyrightfraud (Missbrauch des Urheberrechts)

• Zur-Verfügung-Stellung = Eigenes Recht, wie Publikation, Verteilung, etc.

• Open Access

• Creative Commons?

5

Page 6: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Metadaten als Image

6

Page 7: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Faktenmeldungen

7

Page 8: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Digitalisierung

• Ziele

• Erfassung der relevanten Information

• Schaffung einer (sehr) guten Ausgangsbasis fürWeiterverarbeitung

• Abwägungen

• Qualität vs. Preis

• Inhouse vs. Dienstleister

• Rasche Durchführung vs. langer Atem

• Einheitlichkeit

8

Page 9: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Was macht Qualität aus?

• Missverständnisse

• 300, 400, 600, 1200 dpi?

• TIFF unkomprimiert vs. JPEG komprimiert?

• Zugeschnitten vs. schwarze Ränder

• Entzerrt vs. gewölbt

• Vollständig und geprüft vs. “was im Regal steht”

• Empfehlungen

• 300-400 in Farbe (auch bei s/w Vorlagen)

• JPEG leicht komprimiert (widerspricht DFG Forderung!)

• Bei Büchern und Zeitungen: Zugeschnitten und entzerrt (für OCR sehr

wichtig!)

• Vollständig und geprüft (macht am meisten Arbeit!)

9

Page 10: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

IMPACT

EVA/MIN

ERVA

12th Nov.

2008

10

Page 11: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

IMPACT

EVA/MIN

ERVA

12th Nov.

2008

11

Page 12: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Metadaten

• Missverständnisse

• Bevor wir digitalisieren, müssen wir noch die Dokumente sauber erfassen

sehr viel Arbeit, bläht Digitalisierung unnötig auf

• Stattdessen: Abbildung der bestehenden Ordnung durch Digitalisierung

ist vielfach ausreichend (Benutzer findet online die gleiche Situation vor,

wie vor Ort = Erfolgsrezept von ANNO)

• ENP

• Europeana Newspaper METS ALTO Profile (ENMAP)Name der Bibliothek

Katalog-ID

Titel der Zeitung

Sprache

Skript (Fraktur/Antiqua/Gemischt)

Datum des Tages

12

Page 13: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Workflow ENP

• Simple Lösung für einfachen Workflow

• Tagesordner

Fehlende Tage/Seiten: Dummy-Seiten!

• Sharepoint/Excel

• File Analyzer Tool (FAT)

Analysiert grosse Datenmengen in kurzer Zeit

Kontrolliert Gültigkeit der Verzeichnis- und Dateinamen (Datum, gültige Zeichen,

Länge, etc.)

Gibt Rückmeldung an den Benutzer

Erstellt XML File mit allen Informationen

• OCR (UIBK) oder erweiterte Segmentierung (CCS Gmbh)

ALTO Dateien

• METS Paket mit allen Daten und Dateien

13

Page 14: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

OCR

• Warum OCR?

• Deutschland (und Österreich) lange sehr skeptische Haltung

• “Produziert Fehler und kostet viel Geld”

• Glas halb leer oder halb voll?

• Google Books ohne OCR nicht vorstellbar

• OCR ist billig – weniger als ein Zehntel der Digitalisierungskosten!

• Technische Entwicklung

• Seit Mitte der 90er Jahre robuste und einsatzfähige Software

• Besondere Weiterentwicklung für Layouterkennung, Exportformate

(PDF/A, XML,…), Tabellenerkennung, etc.

• Neue Entwicklungen sind aus dem Bereich der Spracherkennung und

Handschriftenerkennung zu erwarten (Wortbasierte Modelle)

14

Page 15: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

ENP Verarbeitung

• ABBYY FineReader

• Russische Firma, neben Nuance (US/Kanada) größter Anbieter

• Ca. 1000 Mitarbeiter

• Mehr als 200 Sprachen

• Einziger Anbieter für Frakturerkennung ohne Training

• Teilnehmer am METADATA ENGINE und IMPACT Projekt

• Direkter Export von ALTO

• Erfahrungen

• 32 Core Server, Rechenzeit für 10.000 Seiten zwischen 1 Tag und 3-4h abhängig von

der Menge an Text

• Freie Software

• Tesseract

• Ocropus

• Gamera

15

Page 16: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

OCR Wortgenauigkeit

16

Page 17: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Strukturelle Metadaten

• “Dokument Understanding”

• Bild und Volltext erst der Anfang

• Komplexer Aufbau einer Zeitung

• Zeitung ist mehr als nur “Artikel”

• Layout Analyse

• Reduktion von unnötigem Text (Titelei, laufende Kolumnentitel, etc)

• Separierung Anzeigenteil – Redaktioneller Teil

• Abgleich mit parallelen Veröffentlichungen

• Was ist der “Kern” einer Nachricht?

• Führt auch bei sehr schlechtem Volltext zu brauchbaren Ergebnissen

17

Page 18: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Beispiel

18

Page 19: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Gelb: Redaktion Rot: Anzeigen Grün: Unterhaltung

19

Innsbrucker Nachrichten, 4 June 1870

Page 20: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Benutzung

• Früher

• Blättern

• Screenen

• Lesen

• Notieren

• Heute

• Im Volltext Suchen

• PDF exportieren

• Künftig

• Interaktive Benutzung = Benutzer trägt etwas bei (mehr als nur crowd-

sourcing)

• Standardisierte wissenschaftliche Nutzung (ANNO als Standardcorpus)

20

Page 21: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

TEL

21

Page 22: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Suchen und Korrigieren - Corrify

22

Page 23: ENP_ONB_infday_GMuehlberger

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the

Competitiveness and Innovation Framework Programme by the European Community

http://ec.europa.eu/ict_psp

Archivierung

• Prioritäten

• Daten aus Digitalisierungsprojekten vs. born digital und digital only Daten!

• Ungelöstes Problem der Langzeitarchivierung

• Strategien für “vorübergehende Langzeitarchivierung”

• Originale bleiben bei der Retrodigitalisierung erhalten

• ENMAP Pakete

Einfach zu verstehen, bedürfen praktisch kaum der Erklärung

Können in großen ZIP Files abgelegt warden

Unabhängig von der Anwendung: die digitale Ordnung entspricht weitgehend

der “natürlichen” Ordnung im Regal

• Lots of Copies Keep Save

23

Page 24: ENP_ONB_infday_GMuehlberger

Vielen Dank für die Aufmerksamkeit!

lGünter Mühlberger

<[email protected]>