traitement automatique des...
TRANSCRIPT
Formalismes linguistiques – TAL © 2005 R. Marlet1
Formalismes linguistiquesFormalismes linguistiques
Traitement Automatique Traitement Automatique des Languesdes Langues
Renaud Marlet
LaBRI / INRIAhttp://www.labri.fr/~marlet
Formalismes linguistiques – TAL © 2005 R. Marlet2
Les révolutions techno-linguistiquesLes révolutions techno-linguistiques
1. Invention de l'écriture– effets amplifiés par l'imprimerie
2. Grammaticalisation des langues– amplifiée par la mise en place de politiques
linguistiques nationales et l'alphabétisation
3. Traitement électronique de la langue naturelle– s'appuie sur les deux premières révolutions, et sur
les révolutions de l'électronique et de l'informatique
Formalismes linguistiques – TAL © 2005 R. Marlet3
C'est pour un sondageC'est pour un sondage
Qu'est-ce que :– un ordinateur ?– un microprocesseur ?– un programme ?– un langage de programmation ?– une base de données ?– un corpus électronique ?– un traitement informatique de la langue ?
Formalismes linguistiques – TAL © 2005 R. Marlet4
L'ordinateur, son environnementL'ordinateur, son environnementet le flux d'informationet le flux d'information
écran
microprocesseur mémoire
clavier souris
Dispositifs de sortie
Dispositifs d'entrée
rése
auOrdinateur(unité centrale)
[Plus généralement, il existe un grand nombre de types différents de dispositifs d'entrée et/ou de sortie: imprimante, lecteur de CD-ROM, etc.]
Formalismes linguistiques – TAL © 2005 R. Marlet5
Microprocesseur et mémoireMicroprocesseur et mémoire
microprocesseur(fait les calculs)
mémoire volatile(rapide)
mémoire persistante(lente)
[En réalité, la mémoire persistante (disque, disquette, CD-ROM, clé USB, etc.) estun dispositif d'entrée et de sortie, mais cela importe peu pour le raisonnement]
stockage des donnéesréalisation des opérations
Formalismes linguistiques – TAL © 2005 R. Marlet6
Mémoire (vue simplifiée)Mémoire (vue simplifiée)
-42
3.1415927
1
1435721
7
1789
35722
35723
2
314294967296
... ...
... ...
Mémoire : une succession de « cases » numérotées dans lesquels sont rangées des valeurs. Un numéro de case est aussi appelé « adresse mémoire ».
Information grosse ou complexe (ex. date du
14 juillet 1789) :stockée dans plusieurs
cases (souvent contiguës)
Chaque case contientune valeur
035724
Formalismes linguistiques – TAL © 2005 R. Marlet7
Mémoire (en réalité)Mémoire (en réalité)
6
253
1
1435721
7
17
35722
35723
2
314294967296
... ...
... ...
Mémoire : une succession de « cases » numérotées dans lesquels sont rangées des valeurs. Un numéro de case est aussi appelé « adresse mémoire ».
Information grosse ou complexe (ex. date du
14 juillet 1789) :stockée dans plusieurs
cases (souvent contiguës)1789 = 100 × 17 + 891789 = 256 × 6 + 253
Les cases ont toutes la même taille : elles peuvent généralement stocker un
nombre entre 0 et 255 (00000000 à 11111111)
8935724
Formalismes linguistiques – TAL © 2005 R. Marlet8
Représentation d'informations Représentation d'informations symboliques en mémoire (1)symboliques en mémoire (1)
● Associer nombres et symboles
● Il existe des conventions standardisées
● Savoir interpréter :– Un nombre ne « dit » pas s'il doit être interprété comme
nombre (sens propre) ou comme symbole (sens figuré)– Il faut se souvenir du type de l'information stockée
... 65 66 67 ... 97 98 92 ... 231 232 233 ...
... A B C ... a b c ... ç è é ...
6535721
Formalismes linguistiques – TAL © 2005 R. Marlet9
Représentation d'informations Représentation d'informations symboliques en mémoire (2)symboliques en mémoire (2)
● Conventions pour représenter une succession de symboles (ex. suite de lettres d'un mot)– cases mémoire successives– symbole terminateur ou longueur de la chaîne
Ex. mot « Bx3 », stocké à l'adresse 35721 et suivantes
6635721
120
51
35722
35723
... ...
... ...035724
6635721
120
51
35722
35723
... ...
... ...035724
6635721
120
51
35722
35723
... ...
... ...035724
335721
66
120
35722
35723
... ...
... ...5135724
Formalismes linguistiques – TAL © 2005 R. Marlet10
Et un programme, c'est quoi ?Et un programme, c'est quoi ?
Formalismes linguistiques – TAL © 2005 R. Marlet11
Et un programme, c'est quoi ?Et un programme, c'est quoi ?
Un programme, c'est comme une recette de cuisine
(sauf que c'est un peu du chinois)
Formalismes linguistiques – TAL © 2005 R. Marlet12
Exemple : Sauce BéchamelExemple : Sauce Béchamel
Qui sait la préparer ?
Formalismes linguistiques – TAL © 2005 R. Marlet13
Sauce BéchamelSauce BéchamelDescription par l'imageDescription par l'image
Formalismes linguistiques – TAL © 2005 R. Marlet14
Sauce BéchamelleSauce Béchamelle(livre de cuisine de ma grand-mère)(livre de cuisine de ma grand-mère)La Béchamelle — est essentiellement une sauce
maigre ; on la prépare en faisant fondre dans une casserole 30 gr. de beurre auquel, peu à peu, l'on mélange quantité égale de farine en mouillant également peu à peu avec un demi-litre de lait froid bouilli, on aromatise avec sel, pincée de mignonnette, bouquet garni, pointe de muscade, carotte coupée en tranches minces, on tourne sans cesse jusqu'à ce que la sauce bouille ; après dix minutes d'ébullition, à grand feu et en remuant toujours, on supprime les aromates. Si la sauce est parfaitement lisse, il est inutile de la passer ; au cas contraire, on la passera dans une passoire en tournant.
Formalismes linguistiques – TAL © 2005 R. Marlet15
Sauce BéchamelleSauce Béchamelle(de mémé)(de mémé)
La Béchamelle — est essentiellement une sauce maigre ; on la prépare en faisant fondre dans une casserole 30 gr. de beurre auquel, peu à peu, l'on mélange quantité égale de farine en mouillant également peu à peu avec un demi-litre de lait froid bouilli, on aromatise avec sel, pincée de mignonnette, bouquet garni, pointe de muscade, carotte coupée en tranches minces, on tourne sans cesse jusqu'à ce que la sauce bouille ; après dix minutes d'ébullition, à grand feu et en remuant toujours, on supprime les aromates. Si la sauce est parfaitement lisse, il est inutile de la passer ; au cas contraire, on la passera dans une passoire en tournant.
opération (instruction)récipient (case)produit (données)condition (test)contrôle (déroulement)
Formalismes linguistiques – TAL © 2005 R. Marlet16
Sauce BéchamelSauce Béchamel(mon livre de cuisine, plus moderne)(mon livre de cuisine, plus moderne)● 30 g. de farine● 30 g. de beurre● 1/3 l. de lait● Sel, poivre● Éventuellement noix de muscade
Faire fondre le beurre dans une petite casserole, y ajouter la farine, faire chauffer jusqu'à ce que le mélange mousse.
Ajouter, en remuant, le lait froid, continuer à tourner jusqu'à ce que la sauce épaississe. Assaisonner.
Formalismes linguistiques – TAL © 2005 R. Marlet17
Sauce BéchamelSauce Béchamel(mon livre de cuisine, plus moderne)(mon livre de cuisine, plus moderne)● 30 g. de farine● 30 g. de beurre● 1/3 l. de lait● Sel, poivre● Éventuellement noix de muscade
Faire fondre le beurre dans une petite casserole, y ajouter la farine, faire chauffer jusqu'à ce que le mélange mousse.
Ajouter, en remuant, le lait froid, continuer à tourner jusqu'à ce que la sauce épaississe. Assaisonner.
opération (instruction)récipient (case)produit (données)condition (test)contrôle (déroulement)
Formalismes linguistiques – TAL © 2005 R. Marlet18
Sauce Béchamel « informatisée » (1) Sauce Béchamel « informatisée » (1)
Mémoire (état initial) – noms au lieu d'adresses– Case [Farine] : 30 g. de farine– Case [Beurre] : 30 g. de beurre– Case [Lait] : 1/3 l. de lait froid– Case [Assaisonnement] : sel, poivre, muscade– Case [Casserole] : initialement vide
Opérations– vider/ajouter le contenu de la case [X] dans la case [Y]– chauffer/tourner le contenu de la case [X]– tester si le contenu de [X] est fondu, mousse, est épais
Formalismes linguistiques – TAL © 2005 R. Marlet19
Sauce Béchamel « informatisée » (2) Sauce Béchamel « informatisée » (2)
Programme (version informelle)1. Vider le contenu de la case [Beurre] dans la case [Casserole].
2. Faire l'action « Chauffer » sur la case [Casserole] jusqu'à ce que le contenu de [Casserole] soit fondu.
3. Ajouter le contenu de la case [Farine] dans la case [Casserole].
4. Faire l'action « Chauffer » sur la case [Casserole] jusqu'à ce que le contenu de la case [Casserole] mousse.
5. Vider le contenu de la case [Lait] dans la case [Casserole]
6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à ce que le contenu de la case [Casserole] soit épais.
7. Vider le contenu de la case [Assaisonnement] dans la case [Casserole].
8. Tourner le contenu de la case [Casserole].
9. Si le contenu de [Casserole] n'est pas lisse, passer le contenu de [Casserole].
Formalismes linguistiques – TAL © 2005 R. Marlet20
Sauce Béchamel « informatisée » (3) Sauce Béchamel « informatisée » (3)
Mémoire (état final)– Case [Farine] : vide– Case [Beurre] : vide– Case [Lait] : vide– Case [Assaisonnement] : vide– Case [Casserole] : sauce béchamel
Formalismes linguistiques – TAL © 2005 R. Marlet21
Sauce Béchamel « informatisée » (4) Sauce Béchamel « informatisée » (4)
Programme (version formelle)1. [Casserole] ← [Casserole] + [Beurre]
2. Faire chauffer([Casserole]) jusqu'à fondu([Casserole])3. [Casserole] ← [Casserole] + [Farine]
4. Faire chauffer([Casserole]) jusqu'à mousse([Casserole])5. [Casserole] ← [Casserole] + [Lait]
6. Faire tourner([Casserole]) jusqu'à épais([Casserole])7. [Casserole] ← [Casserole] + [Assaisonnement]
8. Tourner([Casserole])9. Si non lisse([Casserole]) alors passer([Casserole])
(Attention à la différence contenu/contenant)
Formalismes linguistiques – TAL © 2005 R. Marlet22
Sauce Béchamel « informatisée » (5) Sauce Béchamel « informatisée » (5)
Programme (version formelle, syntaxe type)1. Casserole ← Casserole + Beurre
2. do chauffer(Casserole) until fondu(Casserole)3. Casserole ← Casserole + Farine
4. do chauffer(Casserole) until mousse(Casserole)5. Casserole ← Casserole + Lait
6. do tourner(Casserole) until épais(Casserole)7. Casserole ← Casserole + Assaisonnement
8. tourner(Casserole)9. if not lisse(Casserole) then passer(Casserole)
(Attention à la différence contenu/contenant)
Formalismes linguistiques – TAL © 2005 R. Marlet23
Les préparations de baseLes préparations de base
● La sauce Béchamel est utilisée dans plusieurs recettes, en particulier les gratins (choux-fleurs, endives, pâtes, ...)
● En ce cas, la recette dit quelque chose comme :– Napper de sauce Béchamel.
● Cela signifie qu'il faut :– sauter à la page de la sauce béchamel,– la faire,– et revenir au point où on en était dans la recette initiale
Formalismes linguistiques – TAL © 2005 R. Marlet24
« Procédure » Sauce Béchamel « Procédure » Sauce Béchamel
● Nommage du programme (procédure) sauce Béchamel pour une casserole données (passage d'argument) :
procedure sauce_Béchamel(Casserole)1. Casserole ← Casserole + Beurre...10. end
● Réutilisation de la procédure sauce_Béchamel dans le programme gratin_de_pâtes :
1. Casserole_1 ← Casserole_1 + Eau + Pâtes...17. do sauce_Béchamel(Casserole_2)18. Plat_à_four ← Plat_à_four + Casserole_2...
Formalismes linguistiques – TAL © 2005 R. Marlet25
Des recettes aux programmesDes recettes aux programmes
Différents types de langages de programmation– langage machine– langages de haut niveau
Recette Programme
récipient case mémoire (à une certaine adresse)
produit donnée (contenu d'une case mémoire)
instruction instruction
Formalismes linguistiques – TAL © 2005 R. Marlet26
Programme en langage machine :Programme en langage machine :suite d'instructions (version simplifiée)suite d'instructions (version simplifiée)
ranger dans case [48] la somme de case [46] et case [47] 721
722
723
46
... ...
... ...
Programme : cas particulier de données exécutables
si case [46] est non nul, continuer l'exécution à l'adresse 721
terminer l'exécution724
47
ranger dans case [47] le produit de case [46] par case [47] 721
soustraire 1 de case [46]
... ...
4
1
fonction factorielle : 4 × 3 × 2 × 1
Formalismes linguistiques – TAL © 2005 R. Marlet27
Programme en langage machine :Programme en langage machine :instructions avec argumentsinstructions avec arguments
721
725
727
46
... ...
... ...
Programme : cas particulier de données exécutables
730
47
721
... ...
ranger 47 46 47
4
1
soustraire 1 46
si non nul 46 721
terminer
fonction factorielle : 4 × 3 × 2 × 1
Formalismes linguistiques – TAL © 2005 R. Marlet28
Programme en langage machine :Programme en langage machine :code exécutablescode exécutables
721
725
727
46
... ...
... ...731
47
721
... ...
28 47 46 47
4
1
139 46
205 46 7
88
... ranger soustraire 1 si non nul terminer ...
... 28 139 205 88 ...
21
fonction factorielle : 4 × 3 × 2 × 1
Le code des instructions est déchiffré par le microprocesseur à l'exécution
Formalismes linguistiques – TAL © 2005 R. Marlet29
Langages de programmationLangages de programmationde haut niveaude haut niveau
Des instructions sans référence directe à la mémoire– Affectation de valeurs, opérations arithmétique
X ← 3 ; X ← X+1
– Contrôle de l'exécutionif condition then instructions ; do instructions until condition
Des données complexestableaux : tab[i+1] ← tab[i] + 1
structures de données composites
☛ Ils simplifient l'écriture de programmes(par rapport au langage machine)
Formalismes linguistiques – TAL © 2005 R. Marlet30
Différents paradigmes de Différents paradigmes de langages de programmationlangages de programmation
● Programmation impérative– instructions qui modifient l'état de la mémoire
● Programmation fonctionnelle– définition par équations sans référence explicite à la
mémoire● Programmation logique
– expression de relations entre objets et recherches de solutions satisfaisant une relation
Et aussi : programmation objet, réactive, déclarative, parallèle, par aspects, etc.
Formalismes linguistiques – TAL © 2005 R. Marlet31
Les limites de l'analogie avec les Les limites de l'analogie avec les recettes de cuisinerecettes de cuisine
● C'est trivial de copier une donnée (duplication de la valeur contenue dans une case mémoire et placement dans une autre case mémoire)
Après l'exécution deX ← Y
– la valeur précédente de X est perdue– X et Y contiennent la même valeur
● C'est plus dur de multiplier les pains
Formalismes linguistiques – TAL © 2005 R. Marlet32
Traitement informatique de la langueTraitement informatique de la langue
Programme dont les données (d'entrée ou de sortie) sont des objets linguistiques– texte :
● suite de caractères● avec ou sans mise en page● avec ou sans contenu hiérarchique et catégoriel
– son : ● enregistrement audio
– ...
Ex. comptage du nombre de mots dans un texte
Formalismes linguistiques – TAL © 2005 R. Marlet33
Exemple : comptage du nombre Exemple : comptage du nombre de mots dans un textede mots dans un texte
« Qu'elle était jolie la petite chèvre de Monsieur Seguin... »
e35724
l
l
35725
35726
e35727
Q35721
u
'
35722
35723
35728
35729 é
1. nbMots ← 0
2. adresse ← 35721
3. si contenu(adresse) = marque_fin_de_texte alors terminer
4. si contenu(adresse) = espacealors nbMots ← nbMots + 1
5. adresse ← adresse + 1
6. continuer à la ligne 3
... ...
Améliorations (corrections) possibles :● traitement de l'apostrophe, de la ponctuation, ...● cas d'un texte commençant par un espace, comportant plusieurs espaces à la suite, terminant sans ponctuation, ...
Formalismes linguistiques – TAL © 2005 R. Marlet34
Petit historique du TALPetit historique du TALLes événements marquantsLes événements marquants
Traitement Automatique des Langues (TAL)
Natural Language Processing (NLP)
Formalismes linguistiques – TAL © 2005 R. Marlet35
Traduction automatique (1)Traduction automatique (1)
● Seconde guerre mondiale : premiers prototypes de calculateurs utilisés en cryptographie
● 1949 : Warren Weaver (mathématicien) prétend que la traduction automatique d'une langue naturelle à une autre est faisable
Idée : la traduction est assimilable à du décryptage (!)
« Quand je vois un article en russe, je me dis que c'est en fait un texte en anglais codé avec d'étranges symboles. Je vais donc entreprendre de le décoder. »
☛ Approche naïve et simpliste (~ mot à mot)
Formalismes linguistiques – TAL © 2005 R. Marlet36
Traduction automatique (2)Traduction automatique (2)
Traduction directe, mot à mot :– Unité lexicale de la langue source (analysée en
composants morphologiques : lemmes + modifieurs) → équivalent dans la langue cible (trouvé par consultation d'un dictionnaire bilingue)
– Analyse syntaxique : permutations pour rétablir l'ordre canonique de la langue cible
Problème (entre autres) :
Une unité lexicale peut avoir de multiples traductions selon le contexte
Formalismes linguistiques – TAL © 2005 R. Marlet37
Traduction automatique (3)Traduction automatique (3)
● 1954 : premiers « traducteurs » automatiques
Double traduction célèbre d'un passage de l'évangile (de l'anglais au russe puis à l'anglais) :
● « l'esprit est ardent mais la chair est faible »
→ « l'alcool est fort mais la viande ne vaut rien »
● Résultats plus que décevants mais efforts poursuivis (généreux financement de dizaines de groupes de recherche)– Le contexte de la guerre froide fait accepter les
promesses abusives des chercheurs (rêve de surveillance continue de l'URSS)
Formalismes linguistiques – TAL © 2005 R. Marlet38
Traduction automatique (4)Traduction automatique (4)
● 1960 : Y. Bar-Hillel (linguiste et logicien) tire la sonnette d'alarme dans un rapport célèbre– « le bois était dans la maison » – bois : matériau ou lieu ?– besoin de connaissances générales sur le monde
● 1965 : commission d'enquête (rapport ALPAC), coup d'arrêt brutal au financement public et privé de la recherche américaine (et ~ mondiale) dans le domaine de la traduction automatique
Formalismes linguistiques – TAL © 2005 R. Marlet39
● Aujourd'hui :– plusieurs niveaux de traduction selon la profondeur
d'analyse (éventuellement un peu sémantique)
● Notion de langage pivot– langage conceptuel universel– N langages → 2N traducteurs– encore hors d'atteinte
● Traduction par couple de langue– N langages → N(N-1) traducteurs
– OK pour langues pas trop différentes etcontextes délimités (ex. texte technique)
Traduction automatique (5)Traduction automatique (5)
langagepivot
L1 L2
L3
L4L5
L6
L1 L2
L3
L4L5
L6
Formalismes linguistiques – TAL © 2005 R. Marlet40
Documentation automatiqueDocumentation automatique
● Gérer l'immense masse des documents écrits● Processus d'automatisation depuis les années 50
– index de titres d'articles– « phrases représentatives » sélectionnées selon la
fréquence de mots (ou co-occurrences) « importants » (généralement : noms, verbes)
● silence (non reconnaissance de passages importants)● bruit (fausses reconnaissances)● problèmes : mots polysémiques, importance des mots-outils
éliminés (négation), reconnaissance de paraphrases, ...● traduction en langages documentaires, aujourd'hui délaissés
Formalismes linguistiques – TAL © 2005 R. Marlet41
Intelligence Artificielle et TAL (1)Intelligence Artificielle et TAL (1)
● Intelligence Artificielle (IA) : simulation par l'ordinateur des activités intelligentes de l'homme– reconnaissance de formes (visuelles, sonores, ...)– résolution de problèmes– acquisition et utilisation des connaissances– compréhension du langage naturel
● Vaste champ de recherche né à la fin des années 1940 aux USA (Marvin Minsky, etc.)
Formalismes linguistiques – TAL © 2005 R. Marlet42
Intelligence Artificielle et TAL (2)Intelligence Artificielle et TAL (2)
● 1964 : Eliza, célèbre programme développé aulabo d'IA du MIT (Joseph Weizenbaum)
● Objectif : simuler une conversation en anglais avec un interlocuteur humain
● Programme bâti sur deux niveaux– recherche de schémas d'expressions (pattern matching)– invention de réponse plausible sur un thème
● Doctor– joue le rôle d'un psychothérapeute
Formalismes linguistiques – TAL © 2005 R. Marlet43
Exemple de dialogue avec ElizaExemple de dialogue avec Eliza
– Men are all alike.– IN WHAT WAY ?– They're always bugging us about something or the other.– CAN YOU THINK OF A SPECIFIC EXAMPLE ?– Well, my boyfriend made me come here.– YOUR BOYFRIEND MADE YOU COME HERE ?– He says that I am depressed all the time.– I AM SORRY TO HEAR YOU ARE DEPRESSED.– It's true that I am unhappy.– DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY ?– I need help, that seems certain.– WHAT WOULD IT MEAN IF YOU GOT SOME HELP ?– Perhaps I could learn to get along with my mother.– TELL ME MORE ABOUT YOUR FAMILLY.– ...
Formalismes linguistiques – TAL © 2005 R. Marlet44
Principes de fonctionnement d'ElizaPrincipes de fonctionnement d'Eliza
● Reconnaissance de mots clés● Si aucune séquence n'est reconnaissable,
envoyer une formule passe-partout, du genre « pouvez-vous préciser votre pensée ? »
● Eliza « marche » pourtant étonnamment bien – pas de mise à l'épreuve de la réalité– principe de « renvoi de la balle » – simplicité mais efficacité du pattern matching– mais limites visibles en prolongeant la conversation
Formalismes linguistiques – TAL © 2005 R. Marlet45
Analyse syntaxiqueAnalyse syntaxique
● Noam Chomsky, fin des années 1950– recherche sur la syntaxe des langues naturelles en
s'appuyant sur les techniques pour langages formels– notion de compétence linguistiques (partition : phrases
grammaticales / phrases agrammaticales)● Colourless green ideas sleep furiously
– mise en correspondance d'une structure profonde avec une structure de surface
– grammaires non contextuelles (or hors contexte ; angl. context-free grammars), très utilisées en informatique
= Essentiel de la recherche linguistique 1955-1970
Formalismes linguistiques – TAL © 2005 R. Marlet46
Analyse sémantico-logiqueAnalyse sémantico-logique
● Terry Winograd, début des années 1970, système SHRDLU
● Le monde des blocs : espace à 3 dimensions contenant des objets simples– parallélépipèdes, pyramides, cubes, de tailles et
couleurs diverses● Robot virtuel pour
les manipuler
Formalismes linguistiques – TAL © 2005 R. Marlet47
Exemple de dialogue avec Exemple de dialogue avec SHRDLUSHRDLU
Person: PICK UP A BIG RED BLOCK.Computer: OK.Person: GRASP THE PYRAMID.Computer: I DON'T UNDERSTAND WHICH PYRAMID YOU MEAN.Person (changing their mind): FIND A BLOCK WHICH IS TALLER THAN THE
ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.Computer: BY "IT", I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER
THAN THE ONE I AM HOLDING.Computer: OK.Person: WHAT DOES THE BOX CONTAIN?Computer: THE BLUE PYRAMID AND THE BLUE BLOCK.Person: WHAT IS THE PYRAMID SUPPORTED BY?Computer: THE BOX.Person: HOW MANY BLOCKS ARE NOT IN THE BOX?Computer: FOUR OF THEM.Person: IS AT LEAST ONE OF THEM NARROWER THAN THE ONE WHICH I
TOLD YOU TO PICK UP?Computer: YES, THE RED CUBE.
Formalismes linguistiques – TAL © 2005 R. Marlet48
Caractéristiques de SHRDLUCaractéristiques de SHRDLU
● SHRDLU– comprend « de même couleur » selon le contexte – sait qu'il faut déplacer un objet pour en poser un autre à
la place– est capable d'expliquer chacun de ses gestes– peut donner à tout moment une description correcte de
son univers● Analyse non seulement syntaxique mais aussi
sémantique et logique– En fait, l'analyse sémantique guide l'analyse syntaxique
Formalismes linguistiques – TAL © 2005 R. Marlet49
Analyse conceptuelle (1)Analyse conceptuelle (1)
● Roger Schank, seconde moitié des années 1970
● Observe que les humains se souviennent du contenu informatif mais peu de la forme
→ réduction de l'importance de la syntaxe
→ traduction en représentations conceptuelles
Formalismes linguistiques – TAL © 2005 R. Marlet50
Analyse conceptuelle (2)Analyse conceptuelle (2)
Appel à des connaissances accumulées dans notre vie
– Contexte des actions normales ou attendues (script)● Ex. « Jean, mécontent de la mauvaise qualité de son
hamburger, a quitté le restaurant sans payer » ● Pour comprendre, il faut savoir que dans un restaurant on paie
pour recevoir de la nourriture et qu'on attend qu'elle soit bonne
– Motivations psychologiques● Ex. « Pierre a craché sur Marie, ce qui l'a fait pleurer » ● Il faut savoir que cracher sur quelqu'un est signe de mépris,
que les gens n'aiment pas être méprisé, ce qui peut provoquer une émotion forte, ce qui peut provoquer des larmes
● La résolution de l'ambiguïté de l'anaphore « l' » est inutile
Formalismes linguistiques – TAL © 2005 R. Marlet51
Analyse conceptuelle (3)Analyse conceptuelle (3)
Systèmes de compréhension automatique– performants pour l'interprétation de certains types
de textes (sortie au restaurant, prise d'otage, déplacements d'une personne politique)
– mais n'épuisent pas tout ce qu'on peut dire d'un texte
– inadaptés pour tout ce qui n'est pas inscrit dans un enchaînement prédictible
– difficiles à gérer
Formalismes linguistiques – TAL © 2005 R. Marlet52
Approche connexionniste (1)Approche connexionniste (1)
● 1943 : W. McCulloch et W. Pitt, analogie entreles neurones et les circuits électriques qui accomplissent des fonctions logiques
● 1949 : D. Hebb, modèle neurologique du fonctionnement de l'esprit– réseau de neurones formels, dont on donne un
modèle mathématique● 1958 : F. Rosenblatt, perceptron, réseau à trois
couches– tâches de reconnaissance de forme et de classification
Formalismes linguistiques – TAL © 2005 R. Marlet53
Approche connexionniste (2)Approche connexionniste (2)
● 1969 : Minsky et Papert, limites du perceptron
→ désintérêt pendant une dizaine d'années
● Fin des années 1970 :– agglomérats multidimensionnels– réseaux compétitifs (effets excitateurs et inhibiteurs)
● Aujourd'hui– adaptés à la reconnaissance de la parole (y compris
en milieu bruité), l'identification de caractères manuscrits, et l'analyse morphologique
Formalismes linguistiques – TAL © 2005 R. Marlet54
Ce qui a changéCe qui a changé avec les années 1990 (1) avec les années 1990 (1)
Technologies– Augmentation de la capacité des ordinateurs
● puissance de calcul● mémoire
– Réseau● implantation mondiale● haut débit
– Nouveaux supports de communication● téléphone mobile, ordinateur portable, bornes interactives,
systèmes embarqués, ...
Formalismes linguistiques – TAL © 2005 R. Marlet55
Ce qui a changéCe qui a changé avec les années 1990 (2) avec les années 1990 (2)
Web– Mise à disposition d'informations
● documents électroniques
– Offre de services● sites interactifs, e-commerce, ...
Bureautique– documents :
● création, manipulation, recherche
– travail coopératif● échange de messages
Formalismes linguistiques – TAL © 2005 R. Marlet56
Ce qui a changéCe qui a changé avec les années 1990 (3) avec les années 1990 (3)
Linguistique informatique– Modèles statistiques
● indexation à grande échelle● analyse superficielle de textes
– Formalismes linguistiques mécanisables● développement de grammaires formelles réalistes● analyseurs syntaxiques de complexité raisonnable
– Disponibilité de gros corpus électroniques● mise au point des analyseurs● extraction des connaissances
Formalismes linguistiques – TAL © 2005 R. Marlet57
Le TAL dans les industries de Le TAL dans les industries de l'information : enjeuxl'information : enjeux
● Le langage naturel est au coeur des systèmes d'information– forme orale : téléphone, ...– forme écrite : mail, web, documents électroniques, ...
● Besoins– rechercher, analyser, classer, diffuser, reproduire,
transformer, vérifier, ...● Automatisation = source de productivité
Formalismes linguistiques – TAL © 2005 R. Marlet58
Marché du TAL (1)Marché du TAL (1)[chiffres 2002][chiffres 2002]
Marché– Monde : 1400 M€
● représente environ 1/200 du marché du logiciel● à titre de comparaison : ~ 1/1000 du marché de l'automobile
– Europe : 510 M€● 36% du marché mondial● dont 60% Royaume-Uni, France, Allemagne, Italie
– France : 77 M€● 15% du marché européen● 96 sociétés (ingénierie linguistique)
Formalismes linguistiques – TAL © 2005 R. Marlet59
Marché du TAL (2)Marché du TAL (2)[chiffres 2002][chiffres 2002]
Offre– traitement du texte (80%)– traitement de la voix (20%)
Demande– pharmacie et santé (36%)– services, banques, assurances, finances (20%)– public (15%)– transport, tourisme (11%)– ...
Formalismes linguistiques – TAL © 2005 R. Marlet60
Marché du TAL (3)Marché du TAL (3)[chiffres 2002][chiffres 2002]
Répartition de la demande par segment d'application– 23% : gestion de documents– 21% : moteurs de recherche intelligents– 14% : gestion de contenu– 14% : e-business– 7% : traduction– 7% : ressources linguistiques– 7% : e-learning– 5% : production et édition– 2% : vocal & multi-modal
Formalismes linguistiques – TAL © 2005 R. Marlet61
Marché du TAL (4)Marché du TAL (4)[chiffres 2002][chiffres 2002]
Cible (au sein d'une même société) [*]– 18 % : moins de 100 personnes– 52% : de 100 à 1000 personnes– 12% : plus 1000 personnes
Cause– 82% dû à l'accroissement des volumes de données à traiter
→ demande : 41% veille internet automatisée, 35% résumé [*]
[*] Attention : chiffres en partie incohérents dans l'étude réalisée et rapportée ici — il y a peu de telles études —, ne regarder que l'ordre de grandeur
Formalismes linguistiques – TAL © 2005 R. Marlet62
Travail demandé semaine dernièreTravail demandé semaine dernière
● Quelles applications du TAL connaissez-vous ?– ...– ...– ...
● De quelles applications rêvez-vous ?– ...– ...– ...
Formalismes linguistiques – TAL © 2005 R. Marlet63
Le TAL dans l'entreprise (1)Le TAL dans l'entreprise (1)
80% des données ne sont pas structurées
→ exprimées en langue naturelle
Ressources internes– recherche et gestion des CV– formation en ligne (e-learning)– gestion électronique de documents– travail collaboratif– ...
Formalismes linguistiques – TAL © 2005 R. Marlet64
Le TAL dans l'entreprise (2)Le TAL dans l'entreprise (2)
Clients– e-commerce– traduction automatique et assistée– support en ligne– automates de reconnaissance et synthèse vocale
pour le support automatique par téléphone– traitement automatique des mails– constitution et interrogation de bases de
connaissances– ...
Formalismes linguistiques – TAL © 2005 R. Marlet65
Le TAL dans l'entreprise (3)Le TAL dans l'entreprise (3)
Clients potentiels– moteur de recherche– aide à la recherche et la compréhension de
documents– analyse de réponse à des enquêtes– profiling
Environnement– veille : technologique, concurrentielle, légale
(brevets) ...
Formalismes linguistiques – TAL © 2005 R. Marlet66
Le TAL comme service embarqué (1)Le TAL comme service embarqué (1)
Bureautique– reconnaissance optique de caractères (OCR)– correction orthographique et grammaticale– résumé automatique– traduction automatique ou assistée– dictée vocale
Formalismes linguistiques – TAL © 2005 R. Marlet67
Le TAL comme service embarqué (2)Le TAL comme service embarqué (2)
Téléphonie (centres d'appel, ...)– reconnaissance vocale
Véhicules (avion, automobile)– commande vocale– synthèse vocale (ex. couplée à un GPS)
Formalismes linguistiques – TAL © 2005 R. Marlet68
Techniques de base pourTechniques de base pourl'analyse de textel'analyse de texte
● Découper et étiqueter– segmenter un texte en phrases et mots– découper en lemmes et morphèmes– reconnaître les catégories syntaxiques (nom, verbe, ...) – reconnaître les traits morphologiques (genre, nombre)
● Reconnaître la structure– analyse syntaxique
● Évaluer le sens– analyse sémantique : mise en relation avec une
structure représentant le sens ; mise en contexte
Formalismes linguistiques – TAL © 2005 R. Marlet69
AmbiguïtésAmbiguïtés
● À chaque étape, des ambiguïtés sont possibles– prends : 2ème ou 3ème personne ?– car : substantif ou conjonction de coordination ?– « la petite brise la glace » – avocat : fruit ou juriste ?– construction : processus ou résultat ?– commencer un livre : lire ?, écrire ?, imprimer ?, ...
● Syntaxe : jusqu'à plusieurs millions d'analyses pour une phrase...
Formalismes linguistiques – TAL © 2005 R. Marlet70
StandardsStandards
ISO TC 37– Encodage des textes et caractères– Structuration des textes (XML)– Structurations des ressources linguistiques
● morphologie, syntaxe, sémantique ● terminologies mono- et multi-lingues● lexiques et dictionnaires● annotations de corpus
Formalismes linguistiques – TAL © 2005 R. Marlet71
Exemple : Veille (1)Exemple : Veille (1)
Problème : surveillance les concurrents(intelligence économique)– gros volume
● internet
– besoin de réactivité● prise de décision en temps de crise
– besoin de fiabilité● impact fort sur la stratégie de l'entreprise
Formalismes linguistiques – TAL © 2005 R. Marlet72
Exemple : Veille (2)Exemple : Veille (2)
Technologie TAL– recherche des documents par mots-clés– analyse morpho-syntaxique des documents– analyse sémantique (extraction de connaissance)
● identification des entités : noms de personnes, noms de compagnies, valeurs, dates, lieux, ...
● reconnaissance des relations entre entité : relation d'achat, de cause à effet entre deux sociétés, ...
Système effectivement utilisé : ex. société Total
Formalismes linguistiques – TAL © 2005 R. Marlet73
Exemple : PortailExemple : Portail
Problème :– portail = contenu externe résultant de la surveillance de
milliers de sites– besoin de fonctions de recherche « intelligentes »
Technologie TAL– enrichissement de requête (synonymes)– expansion à d'autres langues– détection de la langue des documents (pour l'indexation)– Ex. un recherche sur « machines agricoles » trouvera
des documents anglais parlant de « harvester »
Formalismes linguistiques – TAL © 2005 R. Marlet74
Exemple : Classification automatiqueExemple : Classification automatique
Problème– enquêtes client suite à un achat– analyser les questions ouvertes
● donner une vue synthétique● faire ressortir les points critiques
Technologie TAL– analyse morpho-syntaxique et identification du
thème– classification après un apprentissage sur un lot
représentatif
Formalismes linguistiques – TAL © 2005 R. Marlet75
Exemple : Gestion des brevetsExemple : Gestion des brevets
Problème– permettre de lire rapidement un brevet pour identifier
s'il est pertinent ou non par rapport à une recherche
Technologie TAL– collecte de formulations récurrentes et marqueurs
lexicaux qui introduisent des éléments rhétoriques précis
– mise en exergue des passages-clés : objet du brevet, aspects innovants, critiques des autres brevets, ...
Formalismes linguistiques – TAL © 2005 R. Marlet76
Exemple : E-commerce (1)Exemple : E-commerce (1)
Problème : vente par correspondance– permettre au client d'aller vite au produit cherché
● réduire les opérations
– proposer des produits du même type ou complémentaires pour vendre plus
Formalismes linguistiques – TAL © 2005 R. Marlet77
Exemple : E-commerce (2)Exemple : E-commerce (2)
Technologie TAL– synonymie/dérivation
● Ex. tenue de sport → tenue sportive● Ex. lecteur CD portable → baladeur CD
– transformer des requêtes en langue naturelle en des requêtes de base de données (analyse morpho-syntaxique et automates)
● Ex. « pantalon noir en velours à moins de 60 euros » – article : pantalon– couleur : noir– matière : velours– prix : < 60 euros
Formalismes linguistiques – TAL © 2005 R. Marlet78
Exemple : Terminologie d'entrepriseExemple : Terminologie d'entreprise
Problème :– produire et maintenir une documentation technique– en plusieurs langues, adapté à diverses réglementations
→ mise en place d'une terminologie d'entreprise
Technologie TAL– identification de la langue, lemmatisation, analyse et
désambiguïsation morpho-syntaxique– extraction de terminologie multilingue (groupes
nominaux, ...)
Formalismes linguistiques – TAL © 2005 R. Marlet79
Exemple : Gestion de candidaturesExemple : Gestion de candidatures
Problème :– gérer de gros volumes de candidatures (20.000 à
200.000 CV par an)
Technologie TAL– reconnaissance optique de caractères (OCR)– détection de la langue, du type de document (CV,
lettre de motivation)– analyse morpho-syntaxique– application d'étiquettes sémantiques à certains
types de lexiques
Formalismes linguistiques – TAL © 2005 R. Marlet80
Exemple : Gestion de candidaturesExemple : Gestion de candidatures
Technologie TAL (suite)– normalisation (formation, ..)– interrogation suivant des critères (formation,
expérience professionnelle, compétences, localisation géographique, ...)
– envoi automatique d'accusé de réception– routage automatique des candidatures vers des
recruteurs particuliers– statistiques– possibilité de rendre le CV anonyme
Formalismes linguistiques – TAL © 2005 R. Marlet81
Et aussi...Et aussi...
● Génération de textes (bulletins météo, ...)● Concordanciers● Phonétisation (ex. lecture de textes pour aveugles)● Accentuation automatique● Annotation multilingue (alignements de phrases, de mots)● Résumé par compréhension, par extraction● Traduction assistée● Dialogue homme-machine● ...
Formalismes linguistiques – TAL © 2005 R. Marlet82
Qualité (actuelle) variableQualité (actuelle) variable
Exemples :– Analyse syntaxique
● locale (fenêtre d'analyse) → raisonnable, pas parfaite
– Traduction● automatique : encore médiocre● assistée : bons résultats
– Reconnaissance vocale● nécessite de nombreuses corrections
– Indexation● bons résultats
Formalismes linguistiques – TAL © 2005 R. Marlet83
Intérêts majeurs du TALIntérêts majeurs du TAL(il y en a d'autres)(il y en a d'autres)
● Traitement de gros volumes– recherche sur de grosses bases de données, sur
internet, ce qu'un humain ne pourrait pas faire● Vitesse
– plus rapide que ce que des humains pourraient faire
→ réactivité à un besoin urgent
● Dans certains cas (pour des choses suffisamment simples!), fiabilité– un humain commet plus facilement erreurs et oublis
Formalismes linguistiques – TAL © 2005 R. Marlet84
BibliographieBibliographie
● La philosophie du langage, Sylvain Auroux, Presses Universitaires de France, 1996 (chapitre 8)
● Ingénierie des langues, sous la direction de Jean-Marie Pierrel, Editions Hermes, 2000
● Informatique et linguistique, Jean Véronis, Université de Provence, 2001 (disponible sur le web, chapitres 1 à 5: http://www.up.univ-mrs.fr/veronis/cours/INFZ18/)
● Le traitement automatique des langues dans les industries de l'information, Livre blanc, GRIIIL, Janvier 2005 (disponible sur le web: http://www.apil.asso.fr/docs/LB_GRIIIL.pdf)