ocr adaptativo - concert. isabel bordes cabrera
Post on 26-Jul-2015
603 Views
Preview:
TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
SESIÓN DE DEMOSTRACIÓN IMPACT, Biblioteca Nacional de España, 5 de octubre de 2011
OCR Adaptativo – CONCERT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
Esquema del proceso OCR
CONVERSIÓN
DE FICHEROS
CORRECCIONES
GEOMÉTRICAS/ELIM.
MÁRGENES
“BINARIZACIÓN” OCRPOST-PROCESO
+EVALUACIÓN
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3
Ante los múltiples retos de IMPACT tiene una visiónintegradora de varias soluciones:OCR ADAPTATIVO
MEJORA en el reconocimiento del texto …¿cómo?• Adaptabilidad (sistema que aprende)• Integración de diversas herramientas IMPACT
• Kit herramientas preprocesamiento imagen• Motor OCR Omni-font de ABBY FineReader• Módulo postcorrección• Recursos léxicos
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
Algunos de los componentes de OCR adaptativoMotor de agrupación de caracteres (grupos con variaciones similares)
Creación de un “super-símbolo”
Filtración de segmentaciones no relevantes
Corrección de curvatura de papel y la página
Valoración de diferencias mínimas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5
“Crowd sourcing”
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6
Visión de IMPACT:
Nuevo paradigma de la digitalización
Participación del público esfuerzos de digitalización a gran escala.
Herramientas avanzadas vayan más allá sistemas actuales (sistemaaprende = optimización del feedback recibido)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7
Proyecto Gutenberg (1ª generación)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8
www.nla.gov.au/ndp/project_details/documents/ANDP_ManyHands.pdf
Biblioteca Nacional de Australia (2ª)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9http://www.digitalkoot.fi/en/splash
Biblioteca Nacional de Finlandia
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
10
CORRECCIÓN EN COLABORACIÓN - ¿cómo funciona? Sistemas de corrección basados en web
– No hay instalaciones en la parte cliente– Intituitivo para permitir uso público en general
Participación mediante petición (opcional)– Sitio web de la biblioteca– En función de colecciones
Voluntarios interesados en contribuir a la preservación del patrimonio cultural– Listas con los colaboradores destacados– Premios de reconocimiento de la biblioteca
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11
SISTEMAS ACTUALESSimplemente se muestra imagen y resultados de OCR a corregir,
Inconvenientes: – Proceso lento y poco productivo– Dos revisiones que garanticen la calidad
Resultados:
mucho trabajo manualcontribución limitada y puntual
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12
CONCERT (Cooperative Engine for Correction of Extracted Text)
Plataforma de corrección en colaboración adaptativa– Aprovecha feedback para mejorar la productividad– Conexión con el OCR adaptativo
Énfasis en herramientas de productividad– Reducir el tiempo para la verificación/corrección
Patented smart-key approach– Motivar a los voluntarios
Separación del proceso de introducción de datos en varias tareas complementarias– Aplicación optimizada para cada tarea– Tareas y subtareas– Posibilitar el procesamiento en paralelo
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
13
Arquitectura del sistemaLogin seguroCarga de libros como archivos de imágenes o mediante URLOmni-OCR con selección de idiomaDescarga de metadatos de OCR compilados antes y depués de la introducción
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
14
Flujo de trabajo del sistema:Tres sesiones en las que el usuario sólo aquello que el OCR ha marcado como
sospechoso:
A nivel de carácter – para validación rápida de resultados OCR
• A nivel de palabra – (información contextual para validar caracteres)
• A nivel de página – (página completa para interpretar resultados)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15
Sesión a nivel de carácter (character session)– Resultados con nivel de confianza elevado no precisan verificación– Sin embargo, algunos niveles elevados de confianza pueden corresponderse
con errores de reconocimiento– Se extraen imágenes de caracteres individuales y se agrupan en función de
los resultados de reconocimiento– Usuario aprueba, rechaza o señala como sospechosos caracteres ofrecidos
por el sw
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16
Sesión a nivel de palabra (word session)Muestra palabras que contienen caracteres con un nivel de confianza bajoMuestra palabras que contienen caracteres señalados como sospechososMuestra el reconocimiento de OCR original con sugerencias (diccionarios)Los usuarios validan/corrigen la ortografía
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17
Sesión a nivel de página (page session)Principalmente cuando un fallo en la segmentación ha llevado a un mal reconocimiento o ausencia de reconocimientoLa segmentación puede verse de distintas formas: palabra, línea, párrafo, etiquetado…Puede automatizarse el paso de una palabra problemática a la siguienteSólo aquí se ve la corrección del OCR
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18
Demostración del sistemahttp://fue.onb.ac.at/impact/gwsw/vid/EE1_showcase.html
Simulación creada por Gerd Zechmeister (Biblioteca Nacional de Austria, ONB)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19
ESCENARIOS POSIBLES DE INCORPORACIÓNComo parte de la
digitalizaciónUna vez la colección está
disponible MIXTA
+ - + - + -Refuerzo
CONCERT y motor OCR
Variación acuerdos
proveedores
No adaptación WF
Grandes grupos usuarios-formación
ReindexaciónOCR mejorado no
necesarioModificación WF
Corrección de colecciones nuevas y ya disponibles
re-OCR y reindexación(cada nueva corrección)
Corrección limitada en el tº No límite de tº
ALTOs con suficiente detalle
para sesión carácter
OCR retrospectivo ¿?
Integración plataforma web
Implicación usuarios/expertos
monitorizable
COMBINACIÓN COMBINACIÓN
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20
PRUEBAS PILOTOKoninklijke Bibliotheek, British Library, Bavarian State Library (Marzo-Mayo 2011)Observaciones generales:
– Muchas posibilidades– Sencillez, rapidez– Formación, usuarios expertos/comunidad global– Contexto social de apoyo entre colaboradores, My Concert Page; Progreso…
BSB, Pilot (mayo 2011)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
21
Futuro CONCERT Lista mejores colaboradoresIntegración con sitios webs externos, con otros sistemasSmartphonesEdición e-books.
…. Y MUCHO MÁS
top related