evaluation de la qualité des documents anciens vincent rabeux labri
TRANSCRIPT
Evaluation de la qualité des documents anciens
Vincent Rabeux LaBRI
Plan
• Cas d’utilisations et besoins clients.• Les outils pour répondre aux besoins.• La qualité des documents• La transparence– Modélisation– Identification des pixels par recalage– Mesure de la transparence– Prédiction de l’OCR
• Travaux actuels
Cas d’utilisation et besoins clients
Classification de document
Factures Carte identité Roman
Indexation des documents
Base de données- Images - Métadonnées
Recherche
Les outils pour répondre aux besoins
Les outils
• Descripteurs images• Mise en page du document• Texte• Structure logique (Table des matières,
Chapitres, Sections)• => OCR (Optical Character Recognition)– Extraction de la mise en page– Bloc de texte, image, formule mathématique, ..– Transcription du texte
Problèmes des OCRs
• Liés au document :– Fontes– Complexité de la mise en page
• Liés à l’image :– Défauts de l’image– Binarisation
La qualité des documents
Les défauts des documents anciens
Algorithmes de restauration
Problème : - Les temps de calculs
Solution : - Détecter les images bruitées.
Evaluation de la qualité
• L’objectif est de répondre à la question :
– Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?
La transparence
Modélisation
Transparence
Transparence (Modélisation par la lumière)
Transparence(Modélisation par diffusion)
La transparence
Identification des pixels par recalage
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso
Recalage Recto-Verso
• Problème :– Le recto et le verso ne sont pas scanné en même temps.– Pas le même repère.
• Méthodes existantes :– Temps de calcul très important.– Échoue quand la transparence est faible.
• Nouvel algorithme :– Rapide– Précis– Averti l’utilisateur, en cas d’échec.
Recalage Recto-Verso
Recalage Recto-Verso
• Profils
Recalage Recto-Verso
• Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping »
Rotation : Redressement Décalage x et y : DTW.
Recalage Recto-Verso
• Erreur résultante après DTW.• Garantir la précision :– 500 images– 50 sans transparence– Seuil à 0.19
Recalage Recto-Verso
• Résultats :– 50 fois plus rapide (12s vs 598s)– Erreur max de l’état de l’art • Rotation : 18• Translation horizontal : 38• Translation vertical : 39
– Erreur max de notre algorithme • Rotation : 0.25• Translation horizontal : 1• Translation vertical : 11
Identification des pixels de transparence
La transparence
Mesures
Mesure de la transparence
• Intensité :– Distance à l’encre.– Distance au fond.
Mesure de la transparence
Mesure de la transparence
• Composantes ajoutées.• Composantes modifiées.• A quelle point sont-elle modifiées ?
La transparence
Prédiction de l’OCR
Utilisation des mesures
• Prédiction du taux d’erreur de 2 OCRs :
– Abbyy Fine Reader
– OCRopus
• Taux d’erreur calculé grâce à la distance d’édition.
Utilisation des mesures
• Besoins :– Mesurer la transparence et pas les autres défauts, – Avoir une vérité terrain pour l’OCR.
• Génération de documents synthétiques :– fonds, – fontes,– niveau de transparence, – mise en page,
• 200 images de documents générées (90% pour le modèle, 10% pour sa validation).
Extrait du corpus de document
Précision du modèle statistique
• Régression linéaire.• Modèle – OCROpus : R2 = 0.99,– ABBYY : R2 = 0.97,
• Validation– OCROpus : R2 = 0.99, Coefficient : 0.99– ABBYY : R2 = 0.97, Coefficient : 1.006.
Résultats encourageants
• Modèle de prédiction très précis.• Chacune des mesures a son rôle à jouer.• Problèmes :– Données synthétiques.– Beaucoup d’autres défauts.– Besoin d’une vérité terrain des défauts.
Travaux actuels
Travaux actuels
• Création d’une plateforme collaborative de création de vérité terrain: – Orienté qualité (défauts)– 3 niveaux de vérité terrain :• Synthétique.• Utilisateur.• Expert.
• Accessible par web services.
Documents Synthétiques
Niveau utilisateur
Niveau expert
Perspectives
• Finir la base d’images annotées.• Développer des mesures pour les autres
défauts :– Taches– Déformations des caractères
• Prédiction de la qualité d’un document perçu par un être humain.
Merci !