bsb demo day - mühlberger - dokumentstrukturanalyse

Post on 18-Dec-2014

397 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Strukturanalyse auf der Basis von OCR Ergebnissen(Functional Extension Parser- FEP)Günter MühlbergerUniversitäts- und Landesbibliothek Tirol (UIBK)

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Agenda� Architektur

– Wie arbeitet unsere Strukturerkennung?

� Features– Welche strukturellen Merkmale erkennen wir?

� Nutzen– Wofür kann man strukturelle Analyse einsetzen?

� Resultate– Wie gut ist unser Ansatz?

� Zeitplan– Wann wird die Software verfügbar sein?

� Geschäftsmodell– Welche Angebote können wir für die weitere Nutzung machen?

2

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Architektur� Input

– OCR Text, der mind. Wortkoordinaten aufweist– Z.B. ALTO Datei, ABBYY XML oder Google Books (Tesseract) HTML

� Output– Strukturelle Annotationen von erkannten Strukturmerkmalen mit Koordinaten, z.b.

Seitenzahlen, Kolumnentitel, Überschriften, etc. – Format: METS/ALTO, XML, etc.

� Workflow– Images und/oder OCR Dateien werden mittels Webservice nach Innsbruck übermittelt– OCR Dateien werden in internes Format transformiert– Regelset wird angewendet (Rules Engine)– Resultate werden in einer Datenbank hinterlegt– Export der Resultate auf verschiedenen Ebenen

� Optional– Online Korrektur (GUI)– Adaptation des Regelsets manuell oder selbstlernend – Qualitätskontrolle auf Basis von “ground truth”, d.h. erwarteten Resultaten

3

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Strukturmerkmale� Fokus auf allgemeine Strukturmerkmale, die für sehr viele Bücher gelten:

– Seitenzahlen– Kolumnentitel– Satzspiegel– Fußnoten– Bogensignaturen– Überschriften– Einträge in Inhaltsverzeichnissen– Front/Body/Back– Absätze

� Weitere Strukturmerkmale sind möglich– Grundsätzlich können wir alle Strukturmerkmale erkennen, die mittels Layoutfeatures

repräsentiert werden. Z.b. Region, Größe, Art der Schrift, Distanz zu anderen Elementen, Zeilenlänge, etc.

– Aber: Wir sind von direkt von der OCR Qualität abhängig, d.h. besonders von der in jeder OCR eingebauten Layoutanalyse

– Derzeit Tests für die Erweiterung der Regelsets für bestimmte Dokumententypen: Moderne Zeitschriften, Dissertationen

5

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Satzspiegel� Überschriften� Fußnoten

6

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Kolumnentitel� Seitenzahl� Bogensignatur

7

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Inhaltsverzeichnis– Zwischenüberschriften

– Einzelne Einträge mit Autor, Titel, Seitenzahl

8

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nutzen (1)� Anzeige der Images im Internet

– Der korrekte Seitenspiegel erlaubt die Anzeige der Images, ohne das charakteristische “Springen”

� Suche and Anzeige bei der Volltextsuche– Scoring der Resultute

� Strukturelle Annotation kann miteinbezogen werden (Überschriften vs. Fußnoten)

� Kolumnentitel verzerren Resultate (Wiederholung der Kapitelüberschrift)

– Reduktion von Noise� Kolumentitel und Bogensignatur stellen “Verunreinigungen” des laufenden

Textes dar

– Facettierte Suche� Volltextsuche kann facettiert werden, z.b. nach Fließtext, Fußnoten,

Überschriften, etc.

9

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Nutzen (2)� Navigation

– Seitenzahlen ermöglichen es das Inhaltsverzeichnis des Buches zu verwenden

– Das Inhaltsverzeichnis kann direkt mit der Seite, bzw. mit der Überschrift im Buch verlinkt werden

� Weiterverarbeitung des Dokuments– Strukturelle Basisannotationen ermöglichen eine Weiterverarbeitung für

komplexere Formate, wie TEI

– Die manuelle Erstellung von Printvorlagen für Print-on-Demand ist wesentlich vereinfacht durch Erkennung des Satzspiegels

– Selektive OCR Korrektur: Z.B. nur Überschriften, oder nur der Fließtext aber ohne Fußnoten könnten korrigiert wrden

� Verknüpfung mit anderen Dokumenten– Fußnoten können mit externen Datenbanken gematcht werden

10

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verbesserte Darstellung im Internet und im PDF

11

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verfeinerung der Volltextsuche

� Facetten für – Fließtext

– Fußnoten

– Überschriften

� Weniger “Verunreinigungen”– Kolumnentitel und

Bogensignaturen können aus der Suche exkludiert oder nach hinten gereiht werden

12

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Anklickbares Inhaltsverzeichnis – Google Stil

� Selektive OCR Korrektur– Z.B. nur

Inhaltsverzeichnis, Überschriften, Fließtext

13

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Verknüpfung von Dokumenten mit externen Datenquellen– Inhaltsverzeichnisse,

Register mit entsprechenden Einträgen im Buch

– Fußnoten mit Bibliothekskatalogen

14

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

� Erleichterte Weiterverarbeitung– Die “richtigen”

Seitenränder für Print on Demand

– Weiterverarbeitung für hochwertige Nutzungen (TEI)

15

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Resultate� Basisregelset

– Allgemeine Strukturmerkmale für Bücher von 1700 bis 2000– Datenset: 155 Bücher, 30.673 Seiten (141 Training set, 41 Evaluation set)– Alle Seiten wurden manuell annotiert (ground truth)

� Recall, Precision, F-Measure– 10 Zeilen mit Überschriften in einem Buch. Wir finden 12 Zeilen, 8 davon

sind korrekt, 4 sind falsch.– Recall = 8 von 10 = 0,8– Precision = 8 von 12 = 0,66– F-Measure = 2*0.8*0.66/(0.8+0.66) = 0,72

� Weitere Informationen– Wichtig: Wir zählen hier Zeilen, nicht strukturelle Einheiten!

� Z.B. eine Überschrift hat zwei Zeilen, eine davon kann richtig, die andere falsch erkannt worden sein

– Unterschiede zwischen Training und Evaluation sind gering

16

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Resultate am Evaluation Set

17

Recall Precision F-measure

Fließtext 0,99 0,98 0,98

Fußnoten 0,83 0,89 0,86

Seitenzahlen 0,97 1 0,98

Kolumnentitel 0,97 1 0,98

Überschriften 0,85 0,80 0,82

Bogensignaturen 0,68 0,89 0,77

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Kommentar� Forschungssituation

– Kaum Vergleichswerte für die Erkennung von Strukturmerkmalen– Veröffentlichung unseres Datensets im nächsten Jahr– Direkter Vergleich mit den Google Ergebnissen wäre wünschenswert

� Patentanmeldung– Anmeldung unseres Verfahrens beim Europäischen Patentamt im

September erfolgt– Kombination aus manuellen und selbstlernenden Verfahren in

Kombination mit Fuzzy Logik� Inhaltsverzeichniserkennung

– Zwischenzeitlich haben wir ein Regelset für Inhaltsverzeichnisse entwickelt, das sich mit den besten Ergebnissen der INEX (=Wettbewerb für strukturelle Annotation) messen kann

– Ergebnisse werden im Frühjahr nächsten Jahres veröffentlicht

18

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Weiterer Zeitplan� IMPACT Schlusskonferenz (24/25. Oktober London)

– Erstmals Demonstration des Graphischen Userinterface auf Basis von Google Web Toolkit (GWT) zur Anzeige und Korrektur der Ergebnisse

– Alpha Version bis Ende 2011

� Ende 2011– Alpha Version mit den wesentlichen Features

� 1. Quartal 2012– Integration in EOD Netzwerk: FEP als laufender Service im

Probebetrieb

– Weitere Tests mit anderen Dokumententypen

– Veröffentlichung der Ergebnisse für Inhaltsverzeichnisse

19

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Geschäftsmodelle� Grundsätzliches

– Innovative Projekte werden über die Universität Innsbruck abgewickelt– Kommerzielle Projekte über eine Tochterfirma der Universität (transidee)

� FEP als Service– Derzeit nicht geplant ein Produkt daraus zu machen, sondern die Software

läuft in Innsbruck und wird mittels Webservice oder direkt von unsangestoßen

– EOD Netzwerk als Beispiel: Mitglieder erhalten die Chance den FEP zu verwenden

– Ähnliche Angebote sind auch für andere Bibliotheken oder Netzwerke möglich

� Anpassung der Regelsets – Für spezielle Sammlungen können mehr Features genauer erkannt werden– Z.B. besitzen Buchreihen, kritische Ausgaben, Kommentare, Dissertationen,

Parlamentspapiere, etc. komplexere Strukturen, die man entsprechend abbilden kann

20

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank für die Aufmerksamkeit!

21

top related