reconnaissance automatique de texte dans des vidéos à l ... · convnets, sont des reseaux de...

HAL Id: hal-00645217https://hal.archives-ouvertes.fr/hal-00645217

Submitted on 27 Nov 2011

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Reconnaissance automatique de texte dans des vidéos àl’aide d’un OCR et de connaissances linguistiques

Khaoula Elagouni, Christophe Garcia, Pascale Sébillot

To cite this version:Khaoula Elagouni, Christophe Garcia, Pascale Sébillot. Reconnaissance automatique de texte dansdes vidéos à l’aide d’un OCR et de connaissances linguistiques. GRETSI, Sep 2011, Bordeaux, France.4 p., 2 columns. �hal-00645217�

https://hal.archives-ouvertes.fr/hal-00645217

https://hal.archives-ouvertes.fr

Reconnaissance automatique de texte dans des videos a l’aide d’unOCR et de connaissances linguistiques

Khaoula ELAGOUNI1,2, Christophe GARCIA3, Pascale SEBILLOT2

1Orange Labs R&D4 rue du Clos Courtel, 35112 Cesson-Sevigne Cedex, France

2IRISA, INSA de RennesCampus de Beaulieu, 35042 Rennes Cedex, France

3LIRIS, INSA de Lyon17 avenue Jean Capelle, 69621 Villeurbanne Cedex, France

[email protected], [email protected]@irisa.fr

Resume – Cet article traite de l’extraction automatique d’elements textuels incrustes dans des videos afin de decrire semantiquement leurcontenu. Pour ce faire, nous avons developpe un OCR (Optical Character Recognition) video, specifiquement adapte pour detecter et reconnaıtreles textes incrustes. Reposant sur une approche neuronale, notre methode se distingue par sa robustesse a la variabilite de styles et de tailles, ala complexite du fond et aux faibles resolutions de l’image. Nous introduisons egalement un modele de langue qui pilote l’OCR video afin delever les ambiguıtes de la reconnaissance et reduire les erreurs de segmentation. L’approche, evaluee sur une base de journaux televises francais,a obtenu des taux de reconnaissance de caracteres de 95%, offrant ainsi la possibilite d’alimenter un systeme d’indexation de videos.

Abstract – Our work aims at helping multimedia content understanding by extracting textual clues embedded in digital video data. For this, wedeveloped a video Optical Character Recognition (OCR) system, specifically adapted to detect and recognize embedded texts. Based on a neuralapproach, our method outperforms related work especially in terms of robustness to style and size variability, to background complexity and tolow resolution of the image. We also introduced a language model that drives several steps of the video OCR in order to remove ambiguitiesrelated to recognition and reduce segmentation errors. This approach has been evaluated on a database of French TV news videos and achievesa character recognition rate of 95%, which enables its incorporation in a video indexing system.

1 Introduction

Avec le developpement de nouveaux systemes d’acquisitiond’images et l’avenement des services de partage de videos,l’indexation automatique de documents multimedias est deve-nue cruciale pour gerer ces vastes collections. L’enjeu majeurconsiste a extraire l’information pertinente permettant de resu-mer les contenus et retrouver les documents. Durant ces derni-eres annees, certains travaux ont opte pour la prise en comptedes textes incrustes dans les videos comme moyen d’acces a(une partie de) la semantique de leurs contenus. Dans les re-cherches pionnieres de Lienhart et al. [7], un OCR (OpticalCharacter Recognition) commercial, peu adapte aux specifici-tes des videos, est utilise pour reconnaıtre les textes detectes,ce qui conduit a des resultats juges peu satisfaisants. Les ap-proches suivantes [2, 11] se sont interessees a des pretraite-ments utiles pour l’amelioration des performances d’extraction,toujours a l’aide d’OCR commerciaux. Une phase de binari-sation permettant de separer le texte du fond a ainsi ete in-troduite. La mise au point d’OCR specifiques pour la recon-naissance de caracteres dans les videos a egalement fait l’objet

de plusieurs travaux, conduisant a deux types d’OCR : ceuxreposant sur la mise en correspondance de formes [2, 9] etceux construits par apprentissage supervise [4, 8]. Dans le pre-mier type, l’enjeu principal consiste a definir des primitives quirepresentent precisement les caracteres, ce qui induit une va-riation considerable des performances selon les primitives re-tenues. Les methodes du second type conduisent en revanche ades performances meilleures et sont le cadre de notre travail.

Dans cet article, nous proposons un systeme complet d’OCRspecifiquement adapte aux videos, qui permet de detecter et dereconnaıtre les textes incrustes. Outre l’efficacite et la robus-tesse de notre methode de reconnaissance de caracteres fondeesur une approche de classification neuronale, notre secondecontribution reside dans l’introduction d’un mode de supervi-sion reposant sur un modele de langue, qui pilote le systemeOCR et prend en compte le contexte lexical. Apres avoir de-taille notre systeme complet d’OCR en section 2, nous decri-vons et discutons, en section 3, les resultats du test de l’inte-gralite de la chaıne de traitement sur une base de videos reellesde journaux televises. La section 4 rappelle, quant a elle, noscontributions et ouvre des perspectives.

2 Un systeme complet de reconnaissancede texte

La figure 1 decrit les differentes parties de notre systeme.Les details relatifs a chaque phase ainsi que leurs interactionssont presentes dans les sous-sections suivantes.

FIGURE 1 – Schema synoptique de l’OCR video propose.

2.1 Detection et suivi de texteLa premiere etape de notre systeme consiste a detecter les

textes incrustes dans les videos. Delakis et Garcia [3] ont pro-pose une solution efficace et tres robuste qui repere les texteshorizontaux incrustes dans les images et repose sur un modeleneuronal. Nous avons donc choisi d’adapter cette methode aucontexte de la video. Pour cela, nous appliquons une detectiontoutes les 2 secondes 1 afin de reperer les nouveaux textes quivont apparaıtre. Les textes traites etant statiques, nous utilisonsla correlation d’intensites comme mesure de similarite visuelleafin de determiner, pour chaque texte detecte, les instants exactsde son apparition et de sa disparition.

2.2 Segmentation de caracteres fondee sur l’al-gorithme du plus court chemin

Avant la phase de reconnaissance des textes detectes, uneetape preliminaire de segmentation est necessaire afin d’obtenirdes images correspondant chacune a un caractere.

2.2.1 Analyse statistique des intensites

Afin de separer les caracteres, nous introduisons une phasede pretraitement qui distingue le fond du texte. Nous faisonsl’hypothese que les intensites de ces deux classes (le � texte � et

1. Nous supposons que les textes incrustes dans les videos s’affichent pen-dant au moins 2 secondes, sinon ils ne seraient pas lisibles.

le � fond �) suivent des distributions gaussiennes. En utilisantl’algorithme EM (Esperance-Maximisation), nous estimons lesparametres de ces distributions qui servent a la generation d’unepremiere carte floue d’appartenance a la classe � texte �. Parailleurs, nous introduisons l’integration multi-images pour iden-tifier le fond par son eventuelle variabilite au cours du temps.Nous generons une autre carte floue indiquant les probabilitesd’appartenir a la classe � fond �. Nous proposons ensuite defusionner ces deux cartes en optant pour un operateur a com-portement adaptatif. La figure 2 illustre un exemple de carteproduite, utilisee dans la suite pour la segmentation des ca-racteres.

FIGURE 2 – Generation de carte floue d’appartenance.

2.2.2 Segmentation fondee sur l’algorithme du plus courtchemin

Nous cherchons alors a determiner les separations non li-neaires entre les caracteres et qui s’adaptent a leur morpholo-gie. En nous inspirant de [6], nous definissons la segmentationcomme un probleme de plus court chemin coupant verticale-ment la carte floue generee. Trois deplacements sont autorises :45 ◦, 90 ◦ et 135 ◦ par rapport a l’horizontale. A tout chemin estassocie un cout egal a la valeur du pixel de plus forte probabilited’appartenance a la classe � texte �. Deux types de segmenta-tions sont distingues : celles dites � fiables � de cout inferieura un certain seuil et celles dites � risquees � de cout plus eleve.Ces dernieres pourront etre remises en question par la suite (cf.section 2.4). Comme le montre la figure 3, les segmentations� risquees � peuvent correspondre a des sur-segmentations oua des segmentations de caracteres attaches a un fond complexe.Les chemins entre les mots sont identifies comme un espace.

FIGURE 3 – Un exemple de segmentations obtenues : celles� fiables � representees en vert et celles � risquees � en rouge.

2.3 Reconnaissance de caracteres fondee sur uneapproche de classification neuronale

Nous presentons ici notre methode permettant reconnaıtreles caracteres segmentes. Contrairement a la majorite des me-

thodes de l’etat de l’art, nous nous appuyons sur une approchede classification neuronale capable d’apprendre automatique-ment et conjointement a extraire les primitives appropriees eta reconnaıtre les classes de caracteres, sans aucune phase debinarisation.

Les reseaux de neurones a convolutions, ci-apres nommesConvNets, sont des reseaux de neurones particuliers introduitspar LeCun et al. [5] pour reconnaıtre les formes visuelles apartir d’une image sans aucun pretraitement. Ils reposent surles notions de champs receptifs locaux, de poids partages etd’operations de sous-echantillonnage dans le domaine spatial.Grace a ces principes, ils sont capables de traiter des formesextremement variables tout en etant robustes aux distorsions, ala variabilite d’echelle et aux transformations geometriques.

Dans le cadre de notre application, nous avons teste plusieursconfigurations de reseau avant d’opter pour l’architecture dela figure 4. Le reseau prend en entree une image de caractereen niveaux de gris. Les deux premieres couches peuvent etreinterpretees comme des extracteurs de primitives alors que lesdeux suivantes permettent de combiner ces primitives. Les troisdernieres couches de neurones sont chargees de la classificationet produisent en sortie les degres d’appartenance aux classes decaracteres.

FIGURE 4 – Architecture du reseau de neurones a convolutions.

2.4 Integration d’un modele de langue pour ame-liorer les performances de la reconnaissance

Malgre les bonnes performances de la reconnaissance neu-ronale (cf. section 3), des erreurs peuvent etre produites a caused’une confusion entre caracteres, de la complexite du fond et dela mauvaise qualite des videos. Pour pallier les ambiguıtes re-latives a la reconnaissance locale caractere par caractere, nousproposons d’introduire des connaissances linguistiques qui vontpiloter les etapes de l’OCR.

Les modeles de langue n-grammes ont montre leur capacitea ameliorer les performances en reconnaissance de la parole enprenant en compte le contexte lexical. S’appuyant sur des ana-lyses statistiques de corpora, ils permettent de predire le pro-chain mot dans une phrase etant donne les mots qui viennentd’etre employes. Dans notre application, un modele n-grammesest appris afin d’estimer la probabilite qu’une sequence de lettressoit observee. En faisant l’hypothese qu’un caractere ne depend

que de ses n− 1 predecesseurs et a l’aide de la librairie SRILM[10], le modele est entraıne a apprendre les probabilites jointesdes sequences de caracteres sur un corpus de mots francais. Cesprobabilites sont ensuite integrees dans notre chaıne pour obte-nir les propositions les plus fiables de mots. Comme l’illustrela figure 5, pour chaque mot identifie, un graphe est construit.Chaque hypothese de segmentation est representee par un nœudou les sequences optimales de caracteres sont generees et re-coivent un score melant resultats de la reconnaissance, proba-bilites du modele de langue et hypotheses de segmentation. Lesmeilleurs mots candidats, retrouves grace a l’algorithme de Vi-terbi, sont enfin verifies a l’aide d’un dictionnaire.

FIGURE 5 – Un exemple de graphe de reconnaissance obtenu.

3 Resultats experimentauxNos experimentations ont ete realisees sur un ensemble de 12

videos de journaux televises francais. Chacun dure en moyenne30 minutes et contient environ 400 mots incrustes, soit 2 200caracteres assez variables en tailles, couleurs, styles et fonds. 8videos sont annotees pour servir au test de la chaıne completede l’OCR et 4 sont employees pour generer une base de 15 168images de caracteres individuels parfaitement separes, utiliseepour entraıner le reseau de neurones. 41 classes sont conside-rees : les 26 lettres, les 10 chiffres, 4 caracteres speciaux (’.’,’-’, ’(’, et ’)’) et l’espace entre mots.

Nous evaluons tout d’abord notre approche neuronale parConvNets en reconnaissance de caracteres et comparons sesperformances a une classification par SVM (Separateurs a VasteMarge). Dorai et al. [4] ayant teste les modeles SVM sur descaracteres incrustes dans les videos sur une base differente dela notre, nous avons eu recours a la librairie LIBSVM [1] pourimplementer leur methode et la tester, dans plusieurs confi-gurations (cf. tableau 1), sur notre base. De nombreuses ar-chitectures de ConvNets ont ete egalement evaluees (cf. ta-bleau 2). Parmi celles-ci, ConvNet 2 obtient le meilleur taux dereconnaissance : 98.04%. Les taux des autres architectures sontegalement bons mais inferieurs a 90% a cause d’un problemede generalisation pour ConvNet 1 et de sur-apprentissage pourConvNet 3. Malgre ces limites, les taux de reconnaissance desConvNets restent bien superieurs a ceux des SVM ou le meilleurresultat est de 81.18%.

Nous testons ensuite, sur les 8 videos annotees, l’influencede l’integration du modele de langue sur les performances dusysteme complet. La figure 6 illustre certaines corrections ap-portees, notamment la levee de la confusion de caracteres et

TABLE 1 – Taux de reconnaissance des configurations de SVM(C est le parametre de penalite, VS le vecteur support et TR letaux de reconnaissance).

SVM Id C Nombre de VS TR de caracteresSVM 1 1 9215 75.46%SVM 2 2 8544 81.18%SVM 3 3 8091 80.65%

TABLE 2 – Taux de reconnaissance des architectures de Conv-Nets : C1 et C2 (resp. N1 and N2) sont les nombres de cartesde primitives (resp. neurones) des couches 2 et 3 (resp. 5 et 6).

ConvNets Id C1 C2 N1 N2 TR de caracteresConvNets 1 10 15 60 40 87, 17%ConvNets 2 12 25 80 50 98.04%ConvNets 3 15 20 120 80 89, 96%

l’elimination de sur-segmentations.

FIGURE 6 – Exemples de textes extraits et reconnus : (a) lesimages extraites, (b) et (c) les textes reconnus avant et apresl’integration d’un modele de langue (trigrammes).

Le tableau 3 decrit l’impact de la taille de l’historique dumodele n-grammes. Le faible contexte du modele bigrammes,s’il permet une hausse des performances, semble insuffisant.Le meilleur taux de reconnaissance de mots est obtenu par letrigrammes, le quadrigrammes n’ameliorant pas les resultatstout en etant plus complexe. La diminution du taux de recon-naissance de caracteres entre les tableaux 2 et 3 (de 98.04%a 92.69%) peut se justifier par des erreurs de segmentation,forcement absentes dans l’experimentation sur la base de ca-racteres, que le modele de langue n’a pu rectifier. La prise encompte additionnelle du dictionnaire permet d’accroıtre encorele taux de reconnaissance de caracteres (94.95%) et de mots(78.24%) de notre systeme.

4 ConclusionDans cet article, nous avons presente une chaıne complete

d’OCR specialement concue pour detecter et reconnaıtre lestextes incrustes dans des videos. Se basant sur une approcheneuronale, la methode de reconnaissance de caracteres pro-posee a permis d’obtenir de tres bons resultats (98%) et a con-siderablement depasse les performances de methodes reposantsur des modeles SVM (81%). Nous avons aussi demontre quenotre systeme tire profit de l’ajout de connaissances linguis-tiques (modele de langue et dictionnaire) prenant en compte le

contexte lexical. L’OCR video propose, evalue sur une basede videos de journaux televises, atteint ainsi un taux de re-connaissance de caracteres tres eleve d’environ 95% corres-pondant a un taux de reconnaissance de mots de 78%. Cesresultats prometteurs permettent d’envisager l’integration denotre OCR dans un systeme d’indexation de videos. Plus parti-culierement, les textes reconnus serviront a extraire des infor-mations de haut niveau semantique participant a l’indexationdes videos conjointement avec des informations issues d’autresmodalites.

TABLE 3 – Evaluation de l’influence du parametre n.n-grammes TR de caracteres TR de mots

Systeme de reference 88.14% 63.04%Bigrammes 89.37% 65.45%Trigrammes 92.69% 74.34%

Quadrigrammes 90.13% 68.78%

References[1] C. Chang and C. Lin. LIBSVM : a library for support

vector machines. 2001.[2] T. Chen, D. Ghosh, and S. Ranganath. Video-text extrac-

tion and recognition. In TENCON’04, volume 1, pages319–322, 2005.

[3] M. Delakis and C. Garcia. Text detection with convo-lutional neural networks. In VISAPP, volume 2, pages290–294, 2008.

[4] C. Dorai, H. Aradhye, and J.-C. Shim. End-to-end vi-deo text recognition for multimedia content analysis. InICME, pages 601–604, 2001.

[5] Y. LeCun and Y. Bengio. Convolutional networks forimages, speech, and time series. The handbook of braintheory and neural networks, pages 255–258, 1995.

[6] S. Lee, D. Lee, and H. Park. A new methodology for gray-scale character segmentation and recognition. PAMI,18(10) :1045–1050, 2002.

[7] R. Lienhart and F. Stuber. Automatic text recognition indigital videos. Image and Video Processing, pages 2666–2675, 1996.

[8] Z. Saidane and C. Garcia. Automatic scene text recog-nition using a convolutional neural network. In CBDAR,pages 100–106, 2007.

[9] T. Som, D. Can, and M. Saraclar. HMM-based sliding vi-deo text recognition for Turkish broadcast news. In ISCIS,pages 475–479, 2009.

[10] A. Stolcke. SRILM-an extensible language modelingtoolkit. In ICSLP, volume 3, pages 901–904, 2002.

[11] J. Yi, Y. Peng, and J. Xiao. Using multiple frame integra-tion for the text recognition of video. In ICDAR, pages71–75, 2009.

reconnaissance automatique de texte dans des vidéos à l ... · convnets, sont des reseaux de...

Documents