le traitement automatique de la parole 1 identification automatique des langue ivan...

20
LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage [email protected]

Upload: roland-lalanne

Post on 03-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1

Identification automatiquedes langue

Ivan Magrin-Chagnolleau, CNRSLaboratoire Dynamique Du Langage

[email protected]

Page 2: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 2

IDENTIFICATION

AUTOMATIQUE

DES

LANGUES

Introduction

Linguistique 5 000 à 6 000 langues parlées Plus de 10 000 dialectes Près de 3 enfants sur 4 naissent en environnement

multilingue

Ingénierie des langues Domaine récent (1990) Traitement automatique de la parole Environnement multilingue

Objectifs à long terme Décrire automatiquement les langues Comprendre et traduire automatiquement les

langues

Page 3: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 3

Et l’homme ?

Identification des langues par l’adulte• Bon système d’identification !• Influence des connaissances linguistiques a priori

Japonais Coréen ?? ? ?

Identification des langues par l’enfant• Très précoce• Basée sur la distinction de la mélodie et du rythme

Parole Naturelle Parole Synthétisée

Hollandais Japonais Hollandais Japonais

Page 4: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 4

L’Identification Automatique des Langues

• Application standard– Identifier la langue parlée par un locuteur inconnu– La langue fait partie d’un ensemble de N langues

connues– La durée de l’énoncé est limitée ( 1 min.)

• Au-delà…– Langues, dialectes ?– Possibilité de prendre une décision de rejet ?– Identifier des accents étrangers ?

Page 5: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 5

Les enjeux de l’IAL

• Enjeux scientifiques

• Enjeux applicatifs

• Enjeux stratégiques

Page 6: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 6

Les enjeux scientifiques

• Caractérisation linguistique– Typologies linguistiques vs. automatiques

– Compréhension des processus cognitifs du langage

• Modélisation– Phonétique

– Phonologie

– Rythme

– Prosodie

• Apprentissage d’une langue étrangère L2

Page 7: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 7

Les enjeux applicatifs

Communication HM multilingue

Communication multilingueInterfaces Homme Machine

A quelle

heure ?I don’t

understand !

Dictée Vocale Serveurs Vocaux

Interfaces Homme - Machine

Page 8: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 8

Les enjeux applicatifs

• Indexation de documents Multimédia ou Audio– Parole / Musique / Bruit– Sujet traité– Locuteur– Langue

• Sélection « en ligne » d’émissions hertziennes/câblées

Indexation par le contenu

Page 9: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 9

Où avez-vous mal ?

Where does it hurt ?

Les enjeux applicatifs

Standards téléphoniques, Services d’urgence

911911

Intervention humanitaire

Dialogue assisté par ordinateur

Page 10: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 10

Les enjeux stratégiques

Communication internationale Instances internationales (ONU, …) Mission multinationale (Casques bleus, …)

« Renseignement militaire » Identification des langues Identification des dialectes, des parlers Vérification de la langue

Page 11: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 11

Morphologiques Syntaxiques Sémantiques

Comment identifier une langue ?

• Quelles informations ?– Phonétiques– Phonotactiques– Phonologiques– Prosodiques

• Comment les exploiter ?– Modèles statistiques– Modèles neuromimétiques– Systèmes experts

Page 12: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 12

L’approche actuelle

Informations phonétiques Informations phonotactiques

Modèlesde Markov Cachés

Modèles N-grammes

Page 13: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 13

Topologie d’un système d’IAL

T

...21

ReconnaissancePhonétique

Langue 1Langue ...

Langue NModèles

phonétiques

ReconnaissancePhonotactique

)Pr( ii L

Langue 1Langue ...

Langue NModèles

phonotactiques

Prétraitementacoustique

T

oooO ...21

Décision

Page 14: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 14

L’IAL aujourd’hui

• Les points positifs des systèmes actuels– Efficaces : 90 % d’identification correcte (11 langues)

– Parole téléphonique, énoncés de 45 secondes

• Les limites– Données étiquetées limitées

Nombre de décodeurs phonétiques limités

Nombre de langues reconnues limitées

– Incapacité à comparer l’énoncé inconnu à une base de données

Page 15: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 15

Perspectives

• Objectifs – Identifier plus de langues– Identifier plus efficacement– Identifier à partir d’enregistrements plus courts– Prendre en compte les dialectes– Obtenir une description automatique de l’énoncé à identifier

• Méthodes– Prendre en compte plus d’informations

• Prosodique

• Phonologique

– Concevoir des systèmes plus performants• Multi-niveaux

• Approches « systèmes experts »

Page 16: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 16

L’identification des langues à DDL

• Expériences perceptives et cognitives– Mieux comprendre le processus d’identification des langues– Evaluer les différences de traitement cognitifs entre langues et

dialectes– Faire émerger des paramètres pertinents pour l’IAL

• Modélisation automatique– Améliorer les résultats (taux d’identification et nombre de

langues)– Obtenir une description phonologique partielle des langues à

identifier

Tendre vers une description automatique des langues

Page 17: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 17

L’identification des langues à DDL

Expériences perceptives et cognitives• Nature des expériences

– Stimuli naturels ou synthétiques– Expériences d’identification ou de différentiation

• Résultats– Evaluation des différences phonétiques et phonologiques

entre dialectes arabes maghrébins et moyen-orientaux– Evaluation de distances perceptives entre langues romanes

• Expérience d’identification des langues sur Internet

Page 18: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 18

L’identification des langues à DDL

Modélisation• Etudes menées

– Modélisation statistique non supervisée des systèmes vocaliques

– Etude préliminaire sur la modélisation de la prosodie et du rythme

• Résultats– Identification de 4 langues à 98 %

• coréen, français, japonais et vietnamien• Parole téléphonique

– Identification de la zone dialectale arabe à 90 %• Maghreb vs. Moyen-Orient

Page 19: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 19

Bibliographie• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.

Traitement de la parole. Presses Polytechniques Romandes.

• Calliope. La parole et son traitement automatique. Masson, 1989.

Page 20: LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Identification automatique des langue Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 20

Liens InternetSynthèse

• http://tcts.fpms.ac.be/synthesis/mbrola.html• http://www.bell-labs.com/project/tts/#examples• http://www.cstr.ed.ac.uk/projects/festival/• http://www.research.att.com/projects/tts/

Codage• http://people.qualcomm.com/karn/voicedemo/