bsb demo day - zechmeister - ocr-software
DESCRIPTION
TRANSCRIPT
![Page 1: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/1.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11.10.2011 DemoDay BSB
OCR-Software für historische Dokumente Gerd Zechmeister (Österr. Nationalbibliothek)
![Page 2: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/2.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
![Page 3: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/3.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3
Was ist OCR?Optische Zeichenerkennung ist die mechanische oder elektronischeÜbersetzung von - üblicherweise von einem Scanner erfassten - Abbildern von hand- oder maschingeschriebenem bzw. gedrucktem Text in maschinenlesbaren Text. (Übersetzte Definition aus dem IMPACT Glossar)
![Page 4: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/4.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
Warum OCR?
� Volltextgewinnung und Einsatz spezieller Lexika zur Wiederauffindung von
Dokumenten in Suchsystemen
� Editierbarkeit (z.B. Redigieren für reprints oder eBook-Formate)
� Schriftart-Erkennung
� „Trainieren“ von OCR Software
![Page 5: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/5.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5
OCR Verarbeitungsschritte
� Bildvorverarbeitung
– Kompensieren und Ausgleichen von Image-Defekten (z.B. Geraderücken, Entfernen von Flecken) zur Optimierung des Scans sowie als Vorverarbeitungfür die OCR (Binarisierung)
� integriert im OCR-System oder als Vorverarbeitungsschritt vorgesehen
� Layout-Analyse und Segmentierung
– Erkennen von Layout-Elementen (Druckbereich, Marginalia, Seiten- und Kapitelzahlen etc.) und Blöcken (Text, Illustrationen etc.)
� Mehrinformation über diese Elemente und Blöcke (z.B. Koordinaten) können je nach Ausgabeformat in den Ergebnissen mitgeliefert werden
� Mustererkennung
– Erkennen einzelner Zeichen und Abgleich derselben mit der Datenbank von Klassifikatoren (= Zeichenmuster)
– Ausgabe von Ergebnissen (z.B. TXT, XML, RTF)
![Page 6: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/6.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6
IMPACT & ABBYY
� ABBYY ist der OCR-Technologie-Lieferant für IMPACT
� Die IMPACT Partner arbeiten mit der FineReader Engine (SDK)
� ABBYY verbessert Features im Rahmen von IMPACT, darunter:
– Bildvorverarbeitung
– Zeichenerkennung
– Segmentierung
� werden in zukünftige Produkte integriert
� IMPACT ermöglicht Forschung, liefert kein Produktivsystem
![Page 7: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/7.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Binarisierung
![Page 8: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/8.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Adaptive Binarisierung
Original-Scan
alteBinarisierung
neueBinarisierung
![Page 9: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/9.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Binarisierung
9
� Original � Stand der Technik � IMPACT
![Page 10: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/10.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Segmentierung
Blöcke/Regionen Worte Glyphen/Zeichen
![Page 11: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/11.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 1Pre-IMPACT FR Engine 9 FR Engine 10
Ein Teil wurde fälschlicherweise als Grafikblock interpretiert
11111111
![Page 12: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/12.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 2
Fehler in der Zuordnung von Elementen wurden behoben
12121212
Pre-IMPACT FR Engine 9 FR Engine 10
![Page 13: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/13.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
IMPACT Segmentierung: Beispiel 3Pre-IMPACT FR Engine 9 FR Engine 10
In v9 nicht berücksichtigte Textregionen sind jetzt inkludiert
13131313
![Page 14: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/14.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Fraktur-Erkennung
![Page 15: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/15.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Sprachen und Wörterbücher� Ziel: Schnittstelle zur Integration externer Wörterbüc her in die
Engine� 2008 - 2009:
• Betaversion der Schnittstelle• Selbe Prozessqualität möglich wie mit internen Wörterbüchern
15151515
� 2010 - 2011:• Schnittstelle “stabilisieren” (weitere
Funktionstests notwendig)• Partner einschulen wie die Schnittstelle
zu benutzen ist• Unterstützung für alle verfügbaren
Sprachen und Zeiträume
![Page 16: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/16.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16
Eigennamenerkennung
� Erkennen von Personen, Orten und Körperschaften in Volltexten
� Arbeitsschritte
1. Erstellen von Eigennamenverzeichnissen (z. B. Abtippen von Ortsverzeichnissen,
Konvertierung von Normdateien in geeignete Formate)
2. Indexieren von Volltexten
3. Suchschnittstelle generieren
� IMPACT Retrieval Demonstrator
![Page 17: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/17.jpg)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
ALTO: neues natives Exportformat
� Verfügbar seit FineReader Engine 10 R2
� Unterstützt aktuelles Schema: ALTO v. 2.0
� Koordinaten auf Linienebene verfügbar
![Page 18: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/18.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18
Ergebnisvergleich
� Prozess 1
1. Geometrische Korrektur
2. Rahmenentfernung
3. ABBYY FineReader 10 Binarisation Service
4. ABBYY FineReader 10 OCR Service
� Prozess 2
1. ABBYY FineReader 10 OCR Service
![Page 19: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/19.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19
� Prozess 1 (Bildvorverarbeitung + FR 9)
� Prozess 2 (FR 9)
![Page 20: BSB Demo Day - Zechmeister - OCR-Software](https://reader030.vdocuments.us/reader030/viewer/2022020715/548470775906b5c1158b4777/html5/thumbnails/20.jpg)
11.10.2011 DemoDay BSB
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20
Vielen Dank … Fragen?