enp_onb_infday_gmuehlberger
DESCRIPTION
Europeana Newspapers Austrian information day: presentation by Günter MühlbergerTRANSCRIPT
![Page 1: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/1.jpg)
Technische Aspekte der
Zeitungsdigitalisierung
Günter Mühlberger
Universität Innsbruck – Digitalisierung und
elektronische Archivierung
![Page 2: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/2.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Vorstellung
• Digitalisierung und elektronische Archivierung (DEA)
• Seit Mitte der 90er Jahre Digitalisierung und OCR
• 2002-2012 Abteilung an der UB Innsbruck
• 2012 Neuverteilung der Aktivitäteten: Digitalisierung als kommerzielle Dienstleistung
über transidee GmbH (Technologietransferplattform der Universität Innsbruck
• Am Instiut für Germanistik: Forschung und Service im Bereich Digital Humanities
• Digitalisierungsprojekte
• Austrian Literature Online (seit 2002)
• Digitalisierung von Zeitungen für Tessmann Bibliothek
• Komplette Digitalisierung des Innsbrucker Zeitungsarchivs (2004-2006)
• Größtes in-house Digitalisierungsprojekt in Österreich: 1,8 KM deutsche Dissertationen
(2008-2011)
• Digitalisierung der Tiroler Tageszeitung (1945-2003)
• Texterkennung für 8 Mill. Zeitungsseiten im Rahmen von Europeana Newspapers
2
![Page 3: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/3.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Agenda
• Vorüberlegungen
• Digitalisierung
• Metadaten
• Texterkennung
• Strukturerkennung
• Benutzung
• Archivierung
3
![Page 4: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/4.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Vorüberlegungen
• In-house vs. Dienstleister
• Aufbau einer Digitalisierungseinheit?
• Digitalisierung als ständige Einrichtung vs. als Projekt
• Kombination
• Präsentationssystem bekannt?
• Hohes Risiko falls unbekanntes Präsentationssystem
• Falsche Vorstellungen auf Seiten der Auftraggeber
• Archivierung
• Wie sieht die finale Datenstruktur aus?
• Wie soll Archivierung erfolgen?
4
![Page 5: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/5.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Rechte
• Urheberrecht
• Schöpferisches Werk vs. Faktenmeldung
• 70 Jahre nach dem Tod des Autors werden Nutzungen frei
• Persönlichkeitsrecht
• Öffentliche Personen
• Nicht-öffentliche Personen
• Digitalisierung = Vervielfältigung mit elektronischen Mitteln
• Begründet kein neues Urheberrecht
• Copyrightfraud (Missbrauch des Urheberrechts)
• Zur-Verfügung-Stellung = Eigenes Recht, wie Publikation, Verteilung, etc.
• Open Access
• Creative Commons?
5
![Page 6: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/6.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Metadaten als Image
6
![Page 7: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/7.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Faktenmeldungen
7
![Page 8: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/8.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Digitalisierung
• Ziele
• Erfassung der relevanten Information
• Schaffung einer (sehr) guten Ausgangsbasis fürWeiterverarbeitung
• Abwägungen
• Qualität vs. Preis
• Inhouse vs. Dienstleister
• Rasche Durchführung vs. langer Atem
• Einheitlichkeit
8
![Page 9: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/9.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Was macht Qualität aus?
• Missverständnisse
• 300, 400, 600, 1200 dpi?
• TIFF unkomprimiert vs. JPEG komprimiert?
• Zugeschnitten vs. schwarze Ränder
• Entzerrt vs. gewölbt
• Vollständig und geprüft vs. “was im Regal steht”
• Empfehlungen
• 300-400 in Farbe (auch bei s/w Vorlagen)
• JPEG leicht komprimiert (widerspricht DFG Forderung!)
• Bei Büchern und Zeitungen: Zugeschnitten und entzerrt (für OCR sehr
wichtig!)
• Vollständig und geprüft (macht am meisten Arbeit!)
9
![Page 10: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/10.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
IMPACT
EVA/MIN
ERVA
12th Nov.
2008
10
![Page 11: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/11.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
IMPACT
EVA/MIN
ERVA
12th Nov.
2008
11
![Page 12: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/12.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Metadaten
• Missverständnisse
• Bevor wir digitalisieren, müssen wir noch die Dokumente sauber erfassen
sehr viel Arbeit, bläht Digitalisierung unnötig auf
• Stattdessen: Abbildung der bestehenden Ordnung durch Digitalisierung
ist vielfach ausreichend (Benutzer findet online die gleiche Situation vor,
wie vor Ort = Erfolgsrezept von ANNO)
• ENP
• Europeana Newspaper METS ALTO Profile (ENMAP)Name der Bibliothek
Katalog-ID
Titel der Zeitung
Sprache
Skript (Fraktur/Antiqua/Gemischt)
Datum des Tages
12
![Page 13: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/13.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Workflow ENP
• Simple Lösung für einfachen Workflow
• Tagesordner
Fehlende Tage/Seiten: Dummy-Seiten!
• Sharepoint/Excel
• File Analyzer Tool (FAT)
Analysiert grosse Datenmengen in kurzer Zeit
Kontrolliert Gültigkeit der Verzeichnis- und Dateinamen (Datum, gültige Zeichen,
Länge, etc.)
Gibt Rückmeldung an den Benutzer
Erstellt XML File mit allen Informationen
• OCR (UIBK) oder erweiterte Segmentierung (CCS Gmbh)
ALTO Dateien
• METS Paket mit allen Daten und Dateien
13
![Page 14: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/14.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
OCR
• Warum OCR?
• Deutschland (und Österreich) lange sehr skeptische Haltung
• “Produziert Fehler und kostet viel Geld”
• Glas halb leer oder halb voll?
• Google Books ohne OCR nicht vorstellbar
• OCR ist billig – weniger als ein Zehntel der Digitalisierungskosten!
• Technische Entwicklung
• Seit Mitte der 90er Jahre robuste und einsatzfähige Software
• Besondere Weiterentwicklung für Layouterkennung, Exportformate
(PDF/A, XML,…), Tabellenerkennung, etc.
• Neue Entwicklungen sind aus dem Bereich der Spracherkennung und
Handschriftenerkennung zu erwarten (Wortbasierte Modelle)
14
![Page 15: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/15.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
ENP Verarbeitung
• ABBYY FineReader
• Russische Firma, neben Nuance (US/Kanada) größter Anbieter
• Ca. 1000 Mitarbeiter
• Mehr als 200 Sprachen
• Einziger Anbieter für Frakturerkennung ohne Training
• Teilnehmer am METADATA ENGINE und IMPACT Projekt
• Direkter Export von ALTO
• Erfahrungen
• 32 Core Server, Rechenzeit für 10.000 Seiten zwischen 1 Tag und 3-4h abhängig von
der Menge an Text
• Freie Software
• Tesseract
• Ocropus
• Gamera
15
![Page 16: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/16.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
OCR Wortgenauigkeit
16
![Page 17: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/17.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Strukturelle Metadaten
• “Dokument Understanding”
• Bild und Volltext erst der Anfang
• Komplexer Aufbau einer Zeitung
• Zeitung ist mehr als nur “Artikel”
• Layout Analyse
• Reduktion von unnötigem Text (Titelei, laufende Kolumnentitel, etc)
• Separierung Anzeigenteil – Redaktioneller Teil
• Abgleich mit parallelen Veröffentlichungen
• Was ist der “Kern” einer Nachricht?
• Führt auch bei sehr schlechtem Volltext zu brauchbaren Ergebnissen
17
![Page 18: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/18.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Beispiel
18
![Page 19: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/19.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Gelb: Redaktion Rot: Anzeigen Grün: Unterhaltung
19
Innsbrucker Nachrichten, 4 June 1870
![Page 20: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/20.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Benutzung
• Früher
• Blättern
• Screenen
• Lesen
• Notieren
• Heute
• Im Volltext Suchen
• PDF exportieren
• Künftig
• Interaktive Benutzung = Benutzer trägt etwas bei (mehr als nur crowd-
sourcing)
• Standardisierte wissenschaftliche Nutzung (ANNO als Standardcorpus)
20
![Page 21: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/21.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
TEL
21
![Page 22: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/22.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Suchen und Korrigieren - Corrify
22
![Page 23: ENP_ONB_infday_GMuehlberger](https://reader033.vdocuments.us/reader033/viewer/2022060202/559c4aaa1a28abe5708b4620/html5/thumbnails/23.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the
Competitiveness and Innovation Framework Programme by the European Community
http://ec.europa.eu/ict_psp
Archivierung
• Prioritäten
• Daten aus Digitalisierungsprojekten vs. born digital und digital only Daten!
• Ungelöstes Problem der Langzeitarchivierung
• Strategien für “vorübergehende Langzeitarchivierung”
• Originale bleiben bei der Retrodigitalisierung erhalten
• ENMAP Pakete
Einfach zu verstehen, bedürfen praktisch kaum der Erklärung
Können in großen ZIP Files abgelegt warden
Unabhängig von der Anwendung: die digitale Ordnung entspricht weitgehend
der “natürlichen” Ordnung im Regal
• Lots of Copies Keep Save
23