evaluation de la qualité des documents anciens vincent rabeux labri

45
Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Upload: mathilde-paul

Post on 04-Apr-2015

108 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Evaluation de la qualité des documents anciens

Vincent Rabeux LaBRI

Page 2: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Plan

• Cas d’utilisations et besoins clients.• Les outils pour répondre aux besoins.• La qualité des documents• La transparence– Modélisation– Identification des pixels par recalage– Mesure de la transparence– Prédiction de l’OCR

• Travaux actuels

Page 3: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Cas d’utilisation et besoins clients

Page 4: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Classification de document

Factures Carte identité Roman

Page 5: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Indexation des documents

Base de données- Images - Métadonnées

Recherche

Page 6: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Les outils pour répondre aux besoins

Page 7: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Les outils

• Descripteurs images• Mise en page du document• Texte• Structure logique (Table des matières,

Chapitres, Sections)• => OCR (Optical Character Recognition)– Extraction de la mise en page– Bloc de texte, image, formule mathématique, ..– Transcription du texte

Page 8: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Problèmes des OCRs

• Liés au document :– Fontes– Complexité de la mise en page

• Liés à l’image :– Défauts de l’image– Binarisation

Page 9: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

La qualité des documents

Page 10: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Les défauts des documents anciens

Page 11: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Algorithmes de restauration

Problème : - Les temps de calculs

Solution : - Détecter les images bruitées.

Page 12: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Evaluation de la qualité

• L’objectif est de répondre à la question :

– Quel sera le taux d’erreur d’un algorithme (OCR) sur une image donnée ?

Page 13: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

La transparence

Modélisation

Page 14: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Transparence

Page 15: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Transparence (Modélisation par la lumière)

Page 16: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Transparence(Modélisation par diffusion)

Page 17: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

La transparence

Identification des pixels par recalage

Page 18: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

Page 19: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

Page 20: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

Page 21: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

Page 22: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

• Problème :– Le recto et le verso ne sont pas scanné en même temps.– Pas le même repère.

• Méthodes existantes :– Temps de calcul très important.– Échoue quand la transparence est faible.

• Nouvel algorithme :– Rapide– Précis– Averti l’utilisateur, en cas d’échec.

Page 23: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

Page 24: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

• Profils

Page 25: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

• Recalage des profils Horizontaux et Verticaux Utilisation d’un « dynamic time warping »

Rotation : Redressement Décalage x et y : DTW.

Page 26: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

• Erreur résultante après DTW.• Garantir la précision :– 500 images– 50 sans transparence– Seuil à 0.19

Page 27: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Recalage Recto-Verso

• Résultats :– 50 fois plus rapide (12s vs 598s)– Erreur max de l’état de l’art • Rotation : 18• Translation horizontal : 38• Translation vertical : 39

– Erreur max de notre algorithme • Rotation : 0.25• Translation horizontal : 1• Translation vertical : 11

Page 28: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Identification des pixels de transparence

Page 29: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

La transparence

Mesures

Page 30: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Mesure de la transparence

• Intensité :– Distance à l’encre.– Distance au fond.

Page 31: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Mesure de la transparence

Page 32: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Mesure de la transparence

• Composantes ajoutées.• Composantes modifiées.• A quelle point sont-elle modifiées ?

Page 33: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

La transparence

Prédiction de l’OCR

Page 34: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Utilisation des mesures

• Prédiction du taux d’erreur de 2 OCRs :

– Abbyy Fine Reader

– OCRopus

• Taux d’erreur calculé grâce à la distance d’édition.

Page 35: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Utilisation des mesures

• Besoins :– Mesurer la transparence et pas les autres défauts, – Avoir une vérité terrain pour l’OCR.

• Génération de documents synthétiques :– fonds, – fontes,– niveau de transparence, – mise en page,

• 200 images de documents générées (90% pour le modèle, 10% pour sa validation).

Page 36: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Extrait du corpus de document

Page 37: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Précision du modèle statistique

• Régression linéaire.• Modèle – OCROpus : R2 = 0.99,– ABBYY : R2 = 0.97,

• Validation– OCROpus : R2 = 0.99, Coefficient : 0.99– ABBYY : R2 = 0.97, Coefficient : 1.006.

Page 38: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Résultats encourageants

• Modèle de prédiction très précis.• Chacune des mesures a son rôle à jouer.• Problèmes :– Données synthétiques.– Beaucoup d’autres défauts.– Besoin d’une vérité terrain des défauts.

Page 39: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Travaux actuels

Page 40: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Travaux actuels

• Création d’une plateforme collaborative de création de vérité terrain: – Orienté qualité (défauts)– 3 niveaux de vérité terrain :• Synthétique.• Utilisateur.• Expert.

• Accessible par web services.

Page 41: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Documents Synthétiques

Page 42: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Niveau utilisateur

Page 43: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Niveau expert

Page 44: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Perspectives

• Finir la base d’images annotées.• Développer des mesures pour les autres

défauts :– Taches– Déformations des caractères

• Prédiction de la qualité d’un document perçu par un être humain.

Page 45: Evaluation de la qualité des documents anciens Vincent Rabeux LaBRI

Merci !