recent advances in the automatic recognition of audiovisual speech leila zouari, fabian brugger et...

27
Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003

Upload: magali-gonzalez

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

Recent Advances in the Automatic Recognition of

Audiovisual Speech

Leila Zouari, Fabian Brugger et Hervé Bredin

G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior

Proceedings of the IEEE, Vol. 91, NO. 9, September 2003

Page 2: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

2

Objectif

Améliorer les performances des systèmes de reconnaissance de la parole À l’aide de l’information visuelle En milieu bruité essentiellement

Page 3: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

3

Sommaire

Paramètres audiovisuelsModèles audiovisuelsIndices de confianceAdaptationExpériences et résultatsNos premiers résultats sur BANCA

Page 4: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

4

Paramètres audio

24 MFCCs 100 échantillons par seconde

Soustraction de la moyenne Ajout de l’information dynamique

concaténation de 9 trames centrées sur la trame courante

Réduction de la dimension LDA + MLLT

Dimension finale : 60

Page 5: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

5

Paramètres audio [2]Maximum Likelihood Linear Transformation

Objectifs Réduire la dimension Transformer les données

Pour vérifier au mieux la contrainte « covariance diagonale »

En maximisant la vraisemblance des données originales dans l’espace transformé

Page 6: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

6

Paramètres visuels

Détection et poursuite du visage

Sélection de la zone d’intérêt

Extraction et traitement des paramètres

Page 7: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

7

Paramètres visuels [2]

Détection et poursuite du visage

Initialisation : recherche exhaustive différentes tailles différentes positions

Poursuite : recherche dans un voisinage même méthode

Critères classification par LDA (visage/non-visage) distance à l’espace des visages

Page 8: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

8

Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance

intra-classe SW

Maximiser la variance inter-classe SB

Trouver P maximisant

VisageEventuel

Espace des visages

DistanceFromFaceSpace

eige

nfac

e 1

Projection (PCA)

Distance From Face Space

Paramètres visuels [3]

LDA et DFFS

Page 9: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

9

Paramètres visuels [4]

Région d’intérêt

Localisation de points caractéristiques Carré autour de la bouche

Normalisation Echelle Rotation Eclairage Masque

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (LZW)

sont requis pour visionner cette image.

Page 10: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

10

Paramètres visuels [4]

Traitement des paramètres DCT

100 coefficients de plus grande énergie Interpolation linéaire

même fréquence d’échantillonnage que l’audio soustraction de la moyenne

Réduction de la dimension (LDA+MLLT) Ajout de l’information dynamique

Concaténation de 15 trames centrées sur la trame courante Réduction de la dimension (LDA+MLLT)

Dimension finale : 41

Page 11: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

11

Classes :

Flux :

Observations :

Probabilité d’émission :

Probabilité de transition :

Notations

Page 12: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

12

Fusion des paramètres

ConcaténationRéduction de la dimension

LDA MLLT

Modélisation HMM classique avec un flux Comme pour la reconnaissance de la parole

seule

Page 13: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

13

Fusion au niveau de la décision

Principe

Multistream HMM (mêmes classes)

Indice de confiance Dépendant de la modalité seulement

Page 14: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

14

Fusion au niveau de la décision

Estimation des paramètresParamètres à estimer :Estimation séparée

Algorithme EM pour a et v Transition ou

Estimation jointe Algorithme EM adapté

Estimation des indices de confiance

Page 15: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

15

Modélisation de l’asynchronismeNiveaux d’intégration

Trois niveaux d’intégration :

Tôt : état Tard : phrase (« rescoring » des n meilleures

hypothèses) Intermédiaire : mot ou phone ou syllabe.

Niveaux 2 et 3 : asynchronisme entre séquences d’états audio et vidéo

Page 16: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

16

Etats compositesProbabilités d’émission

Page 17: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

17

Etats compositesProbabilités de transition

Hmms couplés :

Hmms produit :

Page 18: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

18

Modèles compositesEstimation des paramètres

2 possibilités : Séparément pour les 2 flux Conjointement

Remarques : Le deuxième schéma est préférable : modélise

l’asynchronisme pendant l’apprentissage et le test.

Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données d’apprentissage.

Page 19: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

19

Calcul des poidsIndicateurs de fiabilité

Les n meilleures vraisemblances d’une observation sont triées dans l’ordre descendant. o

Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes.

o

Indicateur de dispersion des n meilleures hypothèses

Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer

Page 20: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

20

Calcul des poidsFonction sigmoïde

fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération

Wi , paramètres du sigmoïde à estimer.

Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.

Page 21: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

21

Calcul des poidsEstimation des Wi

Deux critères : MCL : Maximum Conditional Likelihood

MCE : Minimum classification error

Page 22: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

22

Adaptation des paramètres

Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse

Application: fusion discriminante des paramètres Techniques: issus du traitement de la parole :

MLLR : maximum Likelihood Linear Regression MAP : maximum a posteriori

Adaptation des transformations- Adapter les matrices de transformation LDA et MLLT en

les calculant avec les données d’apprentissage et d’adaptation. - Ré estimation des paramètres

Page 23: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

23

Expériences

Bases de données :

Modèles acoustiques : Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2

Grammaire :

Boucle de mots : digits Trigramme : LVCSR

Environ. Tâche Durée (h)

Studio LVCSR 44

Studio Chiffres 10

Bureau Chiffres 2

Page 24: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

24

Résultats : vidéo

Chiffres

LVCSR

wer

Speaker independant 93.52

Speaker adapted 82.51

WER

Speaker independant

38.53

Multispeaker 26.57

Speaker adpted 16.77

Page 25: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

25

Résultats AV: Chiffres

Page 26: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

26

Résultats AV : LVCSR

Page 27: Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A

27

Résultats sur BANCA