traitement automatique des...

84
Formalismes linguistiques – TAL © 2005 R. Marlet 1 Formalismes linguistiques Formalismes linguistiques Traitement Automatique Traitement Automatique des Langues des Langues Renaud Marlet LaBRI / INRIA http://www.labri.fr/~marlet

Upload: others

Post on 15-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet1

Formalismes linguistiquesFormalismes linguistiques

Traitement Automatique Traitement Automatique des Languesdes Langues

Renaud Marlet

LaBRI / INRIAhttp://www.labri.fr/~marlet

Page 2: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet2

Les révolutions techno-linguistiquesLes révolutions techno-linguistiques

1. Invention de l'écriture– effets amplifiés par l'imprimerie

2. Grammaticalisation des langues– amplifiée par la mise en place de politiques

linguistiques nationales et l'alphabétisation

3. Traitement électronique de la langue naturelle– s'appuie sur les deux premières révolutions, et sur

les révolutions de l'électronique et de l'informatique

Page 3: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet3

C'est pour un sondageC'est pour un sondage

Qu'est-ce que :– un ordinateur ?– un microprocesseur ?– un programme ?– un langage de programmation ?– une base de données ?– un corpus électronique ?– un traitement informatique de la langue ?

Page 4: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet4

L'ordinateur, son environnementL'ordinateur, son environnementet le flux d'informationet le flux d'information

écran

microprocesseur mémoire

clavier souris

Dispositifs de sortie

Dispositifs d'entrée

rése

auOrdinateur(unité centrale)

[Plus généralement, il existe un grand nombre de types différents de dispositifs d'entrée et/ou de sortie: imprimante, lecteur de CD-ROM, etc.]

Page 5: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet5

Microprocesseur et mémoireMicroprocesseur et mémoire

microprocesseur(fait les calculs)

mémoire volatile(rapide)

mémoire persistante(lente)

[En réalité, la mémoire persistante (disque, disquette, CD-ROM, clé USB, etc.) estun dispositif d'entrée et de sortie, mais cela importe peu pour le raisonnement]

stockage des donnéesréalisation des opérations

Page 6: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet6

Mémoire (vue simplifiée)Mémoire (vue simplifiée)

-42

3.1415927

1

1435721

7

1789

35722

35723

2

314294967296

... ...

... ...

Mémoire : une succession de « cases » numérotées dans lesquels sont rangées    des valeurs. Un numéro de case est aussi appelé « adresse mémoire ».   

Information grosse ou complexe (ex. date du

14 juillet 1789) :stockée dans plusieurs

cases (souvent contiguës)

Chaque case contientune valeur

035724

Page 7: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet7

Mémoire (en réalité)Mémoire (en réalité)

6

253

1

1435721

7

17

35722

35723

2

314294967296

... ...

... ...

Mémoire : une succession de « cases » numérotées dans lesquels sont rangées    des valeurs. Un numéro de case est aussi appelé « adresse mémoire ».   

Information grosse ou complexe (ex. date du

14 juillet 1789) :stockée dans plusieurs

cases (souvent contiguës)1789 = 100 × 17 + 891789 = 256 × 6 + 253

Les cases ont toutes la même taille : elles peuvent généralement stocker un

nombre entre 0 et 255 (00000000 à 11111111)

8935724

Page 8: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet8

Représentation d'informations Représentation d'informations symboliques en mémoire (1)symboliques en mémoire (1)

● Associer nombres et symboles

● Il existe des conventions standardisées

● Savoir interpréter :– Un nombre ne « dit » pas s'il doit être interprété comme    

nombre (sens propre) ou comme symbole (sens figuré)– Il faut se souvenir du type de l'information stockée

... 65 66 67 ... 97 98 92 ... 231 232 233 ...

... A B C ... a b c ... ç è é ...

6535721

Page 9: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet9

Représentation d'informations Représentation d'informations symboliques en mémoire (2)symboliques en mémoire (2)

● Conventions pour représenter une succession de symboles (ex. suite de lettres d'un mot)– cases mémoire successives– symbole terminateur ou longueur de la chaîne

Ex. mot « Bx3 », stocké à l'adresse 35721 et suivantes   

6635721

120

51

35722

35723

... ...

... ...035724

6635721

120

51

35722

35723

... ...

... ...035724

6635721

120

51

35722

35723

... ...

... ...035724

335721

66

120

35722

35723

... ...

... ...5135724

Page 10: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet10

Et un programme, c'est quoi ?Et un programme, c'est quoi ?

Page 11: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet11

Et un programme, c'est quoi ?Et un programme, c'est quoi ?

Un programme, c'est comme une recette de cuisine

(sauf que c'est un peu du chinois)

Page 12: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet12

Exemple : Sauce BéchamelExemple : Sauce Béchamel

Qui sait la préparer ?

Page 13: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet13

Sauce BéchamelSauce BéchamelDescription par l'imageDescription par l'image

Page 14: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet14

Sauce BéchamelleSauce Béchamelle(livre de cuisine de ma grand-mère)(livre de cuisine de ma grand-mère)La Béchamelle — est essentiellement une sauce

maigre ; on la prépare en faisant fondre dans une casserole 30 gr. de beurre auquel, peu à peu, l'on mélange quantité égale de farine en mouillant également peu à peu avec un demi-litre de lait froid bouilli, on aromatise avec sel, pincée de mignonnette, bouquet garni, pointe de muscade, carotte coupée en tranches minces, on tourne sans cesse jusqu'à ce que la sauce bouille ; après dix minutes d'ébullition, à grand feu et en remuant toujours, on supprime les aromates. Si la sauce est parfaitement lisse, il est inutile de la passer ; au cas contraire, on la passera dans une passoire en tournant.

Page 15: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet15

Sauce BéchamelleSauce Béchamelle(de mémé)(de mémé)

La Béchamelle — est essentiellement une sauce maigre ; on la prépare en faisant fondre dans une casserole 30 gr. de beurre auquel, peu à peu, l'on mélange quantité égale de farine en mouillant également peu à peu avec un demi-litre de lait froid bouilli, on aromatise avec sel, pincée de mignonnette, bouquet garni, pointe de muscade, carotte coupée en tranches minces, on tourne sans cesse jusqu'à ce que la sauce bouille ; après dix minutes d'ébullition, à grand feu et en remuant toujours, on supprime les aromates. Si la sauce est parfaitement lisse, il est inutile de la passer ; au cas contraire, on la passera dans une passoire en tournant.

opération (instruction)récipient (case)produit (données)condition (test)contrôle (déroulement)

Page 16: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet16

Sauce BéchamelSauce Béchamel(mon livre de cuisine, plus moderne)(mon livre de cuisine, plus moderne)● 30 g. de farine● 30 g. de beurre● 1/3 l. de lait● Sel, poivre● Éventuellement noix de muscade

Faire fondre le beurre dans une petite casserole, y ajouter la farine, faire chauffer jusqu'à ce que le mélange mousse.

Ajouter, en remuant, le lait froid, continuer à tourner jusqu'à ce que la sauce épaississe. Assaisonner.

Page 17: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet17

Sauce BéchamelSauce Béchamel(mon livre de cuisine, plus moderne)(mon livre de cuisine, plus moderne)● 30 g. de farine● 30 g. de beurre● 1/3 l. de lait● Sel, poivre● Éventuellement noix de muscade

Faire fondre le beurre dans une petite casserole, y ajouter la farine, faire chauffer jusqu'à ce que le mélange mousse.

Ajouter, en remuant, le lait froid, continuer à tourner jusqu'à ce que la sauce épaississe. Assaisonner.

opération (instruction)récipient (case)produit (données)condition (test)contrôle (déroulement)

Page 18: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet18

Sauce Béchamel « informatisée » (1)   Sauce Béchamel « informatisée » (1)   

Mémoire (état initial) – noms au lieu d'adresses– Case [Farine] : 30 g. de farine– Case [Beurre] : 30 g. de beurre– Case [Lait] : 1/3 l. de lait froid– Case [Assaisonnement] : sel, poivre, muscade– Case [Casserole] : initialement vide

Opérations– vider/ajouter le contenu de la case [X] dans la case [Y]– chauffer/tourner le contenu de la case [X]– tester si le contenu de [X] est fondu, mousse, est épais

Page 19: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet19

Sauce Béchamel « informatisée » (2)   Sauce Béchamel « informatisée » (2)   

Programme (version informelle)1. Vider le contenu de la case [Beurre] dans la case [Casserole].

2. Faire l'action « Chauffer » sur la case [Casserole] jusqu'à ce que le contenu    de [Casserole] soit fondu.

3. Ajouter le contenu de la case [Farine] dans la case [Casserole].

4. Faire l'action « Chauffer » sur la case [Casserole] jusqu'à ce que le contenu    de la case [Casserole] mousse.

5. Vider le contenu de la case [Lait] dans la case [Casserole] 

6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à ce que le    contenu de la case [Casserole] soit épais.

7. Vider le contenu de la case [Assaisonnement] dans la case [Casserole].

8. Tourner le contenu de la case [Casserole].

9. Si le contenu de [Casserole] n'est pas lisse, passer le contenu de [Casserole].

Page 20: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet20

Sauce Béchamel « informatisée » (3)   Sauce Béchamel « informatisée » (3)   

Mémoire (état final)– Case [Farine] : vide– Case [Beurre] : vide– Case [Lait] : vide– Case [Assaisonnement] : vide– Case [Casserole] : sauce béchamel

Page 21: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet21

Sauce Béchamel « informatisée » (4)   Sauce Béchamel « informatisée » (4)   

Programme (version formelle)1. [Casserole] ← [Casserole] + [Beurre]

2. Faire chauffer([Casserole]) jusqu'à fondu([Casserole])3. [Casserole] ← [Casserole] + [Farine]

4. Faire chauffer([Casserole]) jusqu'à mousse([Casserole])5. [Casserole] ← [Casserole] + [Lait]

6. Faire tourner([Casserole]) jusqu'à épais([Casserole])7. [Casserole] ← [Casserole] + [Assaisonnement]

8. Tourner([Casserole])9. Si non lisse([Casserole]) alors passer([Casserole])

(Attention à la différence contenu/contenant)

Page 22: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet22

Sauce Béchamel « informatisée » (5)   Sauce Béchamel « informatisée » (5)   

Programme (version formelle, syntaxe type)1. Casserole ← Casserole + Beurre

2. do chauffer(Casserole) until fondu(Casserole)3. Casserole ← Casserole + Farine

4. do chauffer(Casserole) until mousse(Casserole)5. Casserole ← Casserole + Lait

6. do tourner(Casserole) until épais(Casserole)7. Casserole ← Casserole + Assaisonnement

8. tourner(Casserole)9. if not lisse(Casserole) then passer(Casserole)

(Attention à la différence contenu/contenant)

Page 23: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet23

Les préparations de baseLes préparations de base

● La sauce Béchamel est utilisée dans plusieurs recettes, en particulier les gratins (choux-fleurs, endives, pâtes, ...)

● En ce cas, la recette dit quelque chose comme :– Napper de sauce Béchamel.

● Cela signifie qu'il faut :– sauter à la page de la sauce béchamel,– la faire,– et revenir au point où on en était dans la recette initiale

Page 24: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet24

« Procédure » Sauce Béchamel     « Procédure » Sauce Béchamel     

● Nommage du programme (procédure) sauce Béchamel pour une casserole données (passage d'argument) :

procedure sauce_Béchamel(Casserole)1. Casserole ← Casserole + Beurre...10. end

● Réutilisation de la procédure sauce_Béchamel dans le programme gratin_de_pâtes :

1. Casserole_1 ← Casserole_1 + Eau + Pâtes...17. do sauce_Béchamel(Casserole_2)18. Plat_à_four ← Plat_à_four + Casserole_2...

Page 25: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet25

Des recettes aux programmesDes recettes aux programmes

Différents types de langages de programmation– langage machine– langages de haut niveau

Recette Programme

récipient case mémoire (à une certaine adresse)

produit donnée (contenu d'une case mémoire)

instruction instruction

Page 26: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet26

Programme en langage machine :Programme en langage machine :suite d'instructions (version simplifiée)suite d'instructions (version simplifiée)

ranger dans case [48] la somme de case [46] et case [47] 721

722

723

46

... ...

... ...

Programme : cas particulier de données exécutables

si case [46] est non nul, continuer l'exécution à l'adresse 721

terminer l'exécution724

47

ranger dans case [47] le produit de case [46] par case [47] 721

soustraire 1 de case [46]

... ...

4

1

fonction factorielle : 4 × 3 × 2 × 1

Page 27: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet27

Programme en langage machine :Programme en langage machine :instructions avec argumentsinstructions avec arguments

721

725

727

46

... ...

... ...

Programme : cas particulier de données exécutables

730

47

721

... ...

ranger 47 46 47

4

1

soustraire 1 46

si non nul 46 721

terminer

fonction factorielle : 4 × 3 × 2 × 1

Page 28: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet28

Programme en langage machine :Programme en langage machine :code exécutablescode exécutables

721

725

727

46

... ...

... ...731

47

721

... ...

28 47 46 47

4

1

139 46

205 46 7

88

... ranger soustraire 1 si non nul terminer ...

... 28 139 205 88 ...

21

fonction factorielle : 4 × 3 × 2 × 1

Le code des instructions est déchiffré par le microprocesseur à l'exécution

Page 29: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet29

Langages de programmationLangages de programmationde haut niveaude haut niveau

Des instructions sans référence directe à la mémoire– Affectation de valeurs, opérations arithmétique

X ← 3 ; X ← X+1

– Contrôle de l'exécutionif condition then instructions ; do instructions until condition

Des données complexestableaux : tab[i+1] ← tab[i] + 1

structures de données composites

☛ Ils simplifient l'écriture de programmes(par rapport au langage machine)

Page 30: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet30

Différents paradigmes de Différents paradigmes de langages de programmationlangages de programmation

● Programmation impérative– instructions qui modifient l'état de la mémoire

● Programmation fonctionnelle– définition par équations sans référence explicite à la

mémoire● Programmation logique

– expression de relations entre objets et recherches de solutions satisfaisant une relation

Et aussi : programmation objet, réactive, déclarative, parallèle, par aspects, etc.

Page 31: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet31

Les limites de l'analogie avec les Les limites de l'analogie avec les recettes de cuisinerecettes de cuisine

● C'est trivial de copier une donnée (duplication de la valeur contenue dans une case mémoire et placement dans une autre case mémoire)

Après l'exécution deX ← Y

– la valeur précédente de X est perdue– X et Y contiennent la même valeur

● C'est plus dur de multiplier les pains

Page 32: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet32

Traitement informatique de la langueTraitement informatique de la langue

Programme dont les données (d'entrée ou de sortie) sont des objets linguistiques– texte :

● suite de caractères● avec ou sans mise en page● avec ou sans contenu hiérarchique et catégoriel

– son : ● enregistrement audio

– ...

Ex. comptage du nombre de mots dans un texte

Page 33: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet33

Exemple : comptage du nombre Exemple : comptage du nombre de mots dans un textede mots dans un texte

« Qu'elle était jolie la petite chèvre de Monsieur Seguin... »   

e35724

l

l

35725

35726

e35727

Q35721

u

'

35722

35723

35728

35729 é

1. nbMots ← 0

2. adresse ← 35721

3. si contenu(adresse) = marque_fin_de_texte alors terminer

4. si contenu(adresse) = espacealors nbMots ← nbMots + 1

5. adresse ← adresse + 1

6. continuer à la ligne 3

... ...

Améliorations (corrections) possibles :● traitement de l'apostrophe, de la ponctuation, ...● cas d'un texte commençant par un espace, comportant plusieurs espaces à la suite, terminant sans ponctuation, ...

Page 34: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet34

Petit historique du TALPetit historique du TALLes événements marquantsLes événements marquants

Traitement Automatique des Langues (TAL)

Natural Language Processing (NLP)

Page 35: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet35

Traduction automatique (1)Traduction automatique (1)

● Seconde guerre mondiale : premiers prototypes de calculateurs utilisés en cryptographie

● 1949 : Warren Weaver (mathématicien) prétend que la traduction automatique d'une langue naturelle à une autre est faisable

Idée : la traduction est assimilable à du décryptage (!)

« Quand je vois un article en russe, je me dis que c'est  en fait un texte en anglais codé avec d'étranges symboles. Je vais donc entreprendre de le décoder. » 

☛ Approche naïve et simpliste (~ mot à mot)

Page 36: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet36

Traduction automatique (2)Traduction automatique (2)

Traduction directe, mot à mot :– Unité lexicale de la langue source (analysée en

composants morphologiques : lemmes + modifieurs) → équivalent dans la langue cible (trouvé par consultation d'un dictionnaire bilingue)

– Analyse syntaxique : permutations pour rétablir l'ordre canonique de la langue cible

Problème (entre autres) :

Une unité lexicale peut avoir de multiples traductions selon le contexte

Page 37: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet37

Traduction automatique (3)Traduction automatique (3)

● 1954 : premiers « traducteurs » automatiques   

Double traduction célèbre d'un passage de l'évangile (de l'anglais au russe puis à l'anglais) :

● « l'esprit est ardent mais la chair est faible »   

→ « l'alcool est fort mais la viande ne vaut rien »   

● Résultats plus que décevants mais efforts poursuivis (généreux financement de dizaines de groupes de recherche)– Le contexte de la guerre froide fait accepter les

promesses abusives des chercheurs (rêve de surveillance continue de l'URSS)

Page 38: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet38

Traduction automatique (4)Traduction automatique (4)

● 1960 : Y. Bar-Hillel (linguiste et logicien) tire la sonnette d'alarme dans un rapport célèbre– « le bois était dans la maison »   – bois : matériau ou lieu ?– besoin de connaissances générales sur le monde

● 1965 : commission d'enquête (rapport ALPAC), coup d'arrêt brutal au financement public et privé de la recherche américaine (et ~ mondiale) dans le domaine de la traduction automatique

Page 39: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet39

● Aujourd'hui :– plusieurs niveaux de traduction selon la profondeur

d'analyse (éventuellement un peu sémantique)

● Notion de langage pivot– langage conceptuel universel– N langages → 2N traducteurs– encore hors d'atteinte

● Traduction par couple de langue– N langages → N(N-1) traducteurs

– OK pour langues pas trop différentes etcontextes délimités (ex. texte technique)

Traduction automatique (5)Traduction automatique (5)

langagepivot

L1 L2

L3

L4L5

L6

L1 L2

L3

L4L5

L6

Page 40: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet40

Documentation automatiqueDocumentation automatique

● Gérer l'immense masse des documents écrits● Processus d'automatisation depuis les années 50

– index de titres d'articles– « phrases représentatives » sélectionnées selon la    

fréquence de mots (ou co-occurrences) « importants »  (généralement : noms, verbes)

● silence (non reconnaissance de passages importants)● bruit (fausses reconnaissances)● problèmes : mots polysémiques, importance des mots-outils

éliminés (négation), reconnaissance de paraphrases, ...● traduction en langages documentaires, aujourd'hui délaissés

Page 41: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet41

Intelligence Artificielle et TAL (1)Intelligence Artificielle et TAL (1)

● Intelligence Artificielle (IA) : simulation par l'ordinateur des activités intelligentes de l'homme– reconnaissance de formes (visuelles, sonores, ...)– résolution de problèmes– acquisition et utilisation des connaissances– compréhension du langage naturel

● Vaste champ de recherche né à la fin des années 1940 aux USA (Marvin Minsky, etc.)

Page 42: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet42

Intelligence Artificielle et TAL (2)Intelligence Artificielle et TAL (2)

● 1964 : Eliza, célèbre programme développé aulabo d'IA du MIT (Joseph Weizenbaum)

● Objectif : simuler une conversation en anglais avec un interlocuteur humain

● Programme bâti sur deux niveaux– recherche de schémas d'expressions (pattern matching)– invention de réponse plausible sur un thème

● Doctor– joue le rôle d'un psychothérapeute

Page 43: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet43

Exemple de dialogue avec ElizaExemple de dialogue avec Eliza

– Men are all alike.– IN WHAT WAY ?– They're always bugging us about something or the other.– CAN YOU THINK OF A SPECIFIC EXAMPLE ?– Well, my boyfriend made me come here.– YOUR BOYFRIEND MADE YOU COME HERE ?– He says that I am depressed all the time.– I AM SORRY TO HEAR YOU ARE DEPRESSED.– It's true that I am unhappy.– DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY ?– I need help, that seems certain.– WHAT WOULD IT MEAN IF YOU GOT SOME HELP ?– Perhaps I could learn to get along with my mother.– TELL ME MORE ABOUT YOUR FAMILLY.– ...

Page 44: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet44

Principes de fonctionnement d'ElizaPrincipes de fonctionnement d'Eliza

● Reconnaissance de mots clés● Si aucune séquence n'est reconnaissable,

envoyer une formule passe-partout, du genre « pouvez-vous préciser votre pensée ? »   

● Eliza « marche » pourtant étonnamment bien   – pas de mise à l'épreuve de la réalité– principe de « renvoi de la balle »   – simplicité mais efficacité du pattern matching– mais limites visibles en prolongeant la conversation

Page 45: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet45

Analyse syntaxiqueAnalyse syntaxique

● Noam Chomsky, fin des années 1950– recherche sur la syntaxe des langues naturelles en

s'appuyant sur les techniques pour langages formels– notion de compétence linguistiques (partition : phrases

grammaticales / phrases agrammaticales)● Colourless green ideas sleep furiously

– mise en correspondance d'une structure profonde avec une structure de surface

– grammaires non contextuelles (or hors contexte ; angl. context-free grammars), très utilisées en informatique

= Essentiel de la recherche linguistique 1955-1970

Page 46: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet46

Analyse sémantico-logiqueAnalyse sémantico-logique

● Terry Winograd, début des années 1970, système SHRDLU

● Le monde des blocs : espace à 3 dimensions contenant des objets simples– parallélépipèdes, pyramides, cubes, de tailles et

couleurs diverses● Robot virtuel pour

les manipuler

Page 47: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet47

Exemple de dialogue avec Exemple de dialogue avec SHRDLUSHRDLU

Person: PICK UP A BIG RED BLOCK.Computer: OK.Person: GRASP THE PYRAMID.Computer: I DON'T UNDERSTAND WHICH PYRAMID YOU MEAN.Person (changing their mind): FIND A BLOCK WHICH IS TALLER THAN THE

ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.Computer: BY "IT", I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER

THAN THE ONE I AM HOLDING.Computer: OK.Person: WHAT DOES THE BOX CONTAIN?Computer: THE BLUE PYRAMID AND THE BLUE BLOCK.Person: WHAT IS THE PYRAMID SUPPORTED BY?Computer: THE BOX.Person: HOW MANY BLOCKS ARE NOT IN THE BOX?Computer: FOUR OF THEM.Person: IS AT LEAST ONE OF THEM NARROWER THAN THE ONE WHICH I

TOLD YOU TO PICK UP?Computer: YES, THE RED CUBE.

Page 48: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet48

Caractéristiques de SHRDLUCaractéristiques de SHRDLU

● SHRDLU– comprend « de même couleur » selon le contexte   – sait qu'il faut déplacer un objet pour en poser un autre à

la place– est capable d'expliquer chacun de ses gestes– peut donner à tout moment une description correcte de

son univers● Analyse non seulement syntaxique mais aussi

sémantique et logique– En fait, l'analyse sémantique guide l'analyse syntaxique

Page 49: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet49

Analyse conceptuelle (1)Analyse conceptuelle (1)

● Roger Schank, seconde moitié des années 1970

● Observe que les humains se souviennent du contenu informatif mais peu de la forme

→ réduction de l'importance de la syntaxe

→ traduction en représentations conceptuelles

Page 50: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet50

Analyse conceptuelle (2)Analyse conceptuelle (2)

Appel à des connaissances accumulées dans notre vie

– Contexte des actions normales ou attendues (script)● Ex. « Jean, mécontent de la mauvaise qualité de son  

hamburger, a quitté le restaurant sans payer » ● Pour comprendre, il faut savoir que dans un restaurant on paie

pour recevoir de la nourriture et qu'on attend qu'elle soit bonne

– Motivations psychologiques● Ex. « Pierre a craché sur Marie, ce qui l'a fait pleurer »   ● Il faut savoir que cracher sur quelqu'un est signe de mépris,

que les gens n'aiment pas être méprisé, ce qui peut provoquer une émotion forte, ce qui peut provoquer des larmes

● La résolution de l'ambiguïté de l'anaphore « l' » est inutile   

Page 51: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet51

Analyse conceptuelle (3)Analyse conceptuelle (3)

Systèmes de compréhension automatique– performants pour l'interprétation de certains types

de textes (sortie au restaurant, prise d'otage, déplacements d'une personne politique)

– mais n'épuisent pas tout ce qu'on peut dire d'un texte

– inadaptés pour tout ce qui n'est pas inscrit dans un enchaînement prédictible

– difficiles à gérer

Page 52: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet52

Approche connexionniste (1)Approche connexionniste (1)

● 1943 : W. McCulloch et W. Pitt, analogie entreles neurones et les circuits électriques qui accomplissent des fonctions logiques

● 1949 : D. Hebb, modèle neurologique du fonctionnement de l'esprit– réseau de neurones formels, dont on donne un

modèle mathématique● 1958 : F. Rosenblatt, perceptron, réseau à trois

couches– tâches de reconnaissance de forme et de classification

Page 53: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet53

Approche connexionniste (2)Approche connexionniste (2)

● 1969 : Minsky et Papert, limites du perceptron

→ désintérêt pendant une dizaine d'années

● Fin des années 1970 :– agglomérats multidimensionnels– réseaux compétitifs (effets excitateurs et inhibiteurs)

● Aujourd'hui– adaptés à la reconnaissance de la parole (y compris

en milieu bruité), l'identification de caractères manuscrits, et l'analyse morphologique

Page 54: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet54

Ce qui a changéCe qui a changé avec les années 1990 (1) avec les années 1990 (1)

Technologies– Augmentation de la capacité des ordinateurs

● puissance de calcul● mémoire

– Réseau● implantation mondiale● haut débit

– Nouveaux supports de communication● téléphone mobile, ordinateur portable, bornes interactives,

systèmes embarqués, ...

Page 55: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet55

Ce qui a changéCe qui a changé avec les années 1990 (2) avec les années 1990 (2)

Web– Mise à disposition d'informations

● documents électroniques

– Offre de services● sites interactifs, e-commerce, ...

Bureautique– documents :

● création, manipulation, recherche

– travail coopératif● échange de messages

Page 56: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet56

Ce qui a changéCe qui a changé avec les années 1990 (3) avec les années 1990 (3)

Linguistique informatique– Modèles statistiques

● indexation à grande échelle● analyse superficielle de textes

– Formalismes linguistiques mécanisables● développement de grammaires formelles réalistes● analyseurs syntaxiques de complexité raisonnable

– Disponibilité de gros corpus électroniques● mise au point des analyseurs● extraction des connaissances

Page 57: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet57

Le TAL dans les industries de Le TAL dans les industries de l'information : enjeuxl'information : enjeux

● Le langage naturel est au coeur des systèmes d'information– forme orale : téléphone, ...– forme écrite : mail, web, documents électroniques, ...

● Besoins– rechercher, analyser, classer, diffuser, reproduire,

transformer, vérifier, ...● Automatisation = source de productivité

Page 58: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet58

Marché du TAL (1)Marché du TAL (1)[chiffres 2002][chiffres 2002]

Marché– Monde : 1400 M€

● représente environ 1/200 du marché du logiciel● à titre de comparaison : ~ 1/1000 du marché de l'automobile

– Europe : 510 M€● 36% du marché mondial● dont 60% Royaume-Uni, France, Allemagne, Italie

– France : 77 M€● 15% du marché européen● 96 sociétés (ingénierie linguistique)

Page 59: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet59

Marché du TAL (2)Marché du TAL (2)[chiffres 2002][chiffres 2002]

Offre– traitement du texte (80%)– traitement de la voix (20%)

Demande– pharmacie et santé (36%)– services, banques, assurances, finances (20%)– public (15%)– transport, tourisme (11%)– ...

Page 60: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet60

Marché du TAL (3)Marché du TAL (3)[chiffres 2002][chiffres 2002]

Répartition de la demande par segment d'application– 23% : gestion de documents– 21% : moteurs de recherche intelligents– 14% : gestion de contenu– 14% : e-business– 7% : traduction– 7% : ressources linguistiques– 7% : e-learning– 5% : production et édition– 2% : vocal & multi-modal

Page 61: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet61

Marché du TAL (4)Marché du TAL (4)[chiffres 2002][chiffres 2002]

Cible (au sein d'une même société) [*]– 18 % : moins de 100 personnes– 52% : de 100 à 1000 personnes– 12% : plus 1000 personnes

Cause– 82% dû à l'accroissement des volumes de données à traiter

→ demande : 41% veille internet automatisée, 35% résumé [*]

[*] Attention : chiffres en partie incohérents dans l'étude réalisée et rapportée ici — il y a peu de telles études —, ne regarder que l'ordre de grandeur

Page 62: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet62

Travail demandé semaine dernièreTravail demandé semaine dernière

● Quelles applications du TAL connaissez-vous ?– ...– ...– ...

● De quelles applications rêvez-vous ?– ...– ...– ...

Page 63: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet63

Le TAL dans l'entreprise (1)Le TAL dans l'entreprise (1)

80% des données ne sont pas structurées

→ exprimées en langue naturelle

Ressources internes– recherche et gestion des CV– formation en ligne (e-learning)– gestion électronique de documents– travail collaboratif– ...

Page 64: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet64

Le TAL dans l'entreprise (2)Le TAL dans l'entreprise (2)

Clients– e-commerce– traduction automatique et assistée– support en ligne– automates de reconnaissance et synthèse vocale

pour le support automatique par téléphone– traitement automatique des mails– constitution et interrogation de bases de

connaissances– ...

Page 65: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet65

Le TAL dans l'entreprise (3)Le TAL dans l'entreprise (3)

Clients potentiels– moteur de recherche– aide à la recherche et la compréhension de

documents– analyse de réponse à des enquêtes– profiling

Environnement– veille : technologique, concurrentielle, légale

(brevets) ...

Page 66: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet66

Le TAL comme service embarqué (1)Le TAL comme service embarqué (1)

Bureautique– reconnaissance optique de caractères (OCR)– correction orthographique et grammaticale– résumé automatique– traduction automatique ou assistée– dictée vocale

Page 67: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet67

Le TAL comme service embarqué (2)Le TAL comme service embarqué (2)

Téléphonie (centres d'appel, ...)– reconnaissance vocale

Véhicules (avion, automobile)– commande vocale– synthèse vocale (ex. couplée à un GPS)

Page 68: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet68

Techniques de base pourTechniques de base pourl'analyse de textel'analyse de texte

● Découper et étiqueter– segmenter un texte en phrases et mots– découper en lemmes et morphèmes– reconnaître les catégories syntaxiques (nom, verbe, ...) – reconnaître les traits morphologiques (genre, nombre)

● Reconnaître la structure– analyse syntaxique

● Évaluer le sens– analyse sémantique : mise en relation avec une

structure représentant le sens ; mise en contexte

Page 69: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet69

AmbiguïtésAmbiguïtés

● À chaque étape, des ambiguïtés sont possibles– prends : 2ème ou 3ème personne ?– car : substantif ou conjonction de coordination ?– « la petite brise la glace »   – avocat : fruit ou juriste ?– construction : processus ou résultat ?– commencer un livre : lire ?, écrire ?, imprimer ?, ...

● Syntaxe : jusqu'à plusieurs millions d'analyses pour une phrase...

Page 70: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet70

StandardsStandards

ISO TC 37– Encodage des textes et caractères– Structuration des textes (XML)– Structurations des ressources linguistiques

● morphologie, syntaxe, sémantique ● terminologies mono- et multi-lingues● lexiques et dictionnaires● annotations de corpus

Page 71: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet71

Exemple : Veille (1)Exemple : Veille (1)

Problème : surveillance les concurrents(intelligence économique)– gros volume

● internet

– besoin de réactivité● prise de décision en temps de crise

– besoin de fiabilité● impact fort sur la stratégie de l'entreprise

Page 72: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet72

Exemple : Veille (2)Exemple : Veille (2)

Technologie TAL– recherche des documents par mots-clés– analyse morpho-syntaxique des documents– analyse sémantique (extraction de connaissance)

● identification des entités : noms de personnes, noms de compagnies, valeurs, dates, lieux, ...

● reconnaissance des relations entre entité : relation d'achat, de cause à effet entre deux sociétés, ...

Système effectivement utilisé : ex. société Total

Page 73: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet73

Exemple : PortailExemple : Portail

Problème :– portail = contenu externe résultant de la surveillance de

milliers de sites– besoin de fonctions de recherche « intelligentes »   

Technologie TAL– enrichissement de requête (synonymes)– expansion à d'autres langues– détection de la langue des documents (pour l'indexation)– Ex. un recherche sur « machines agricoles » trouvera    

des documents anglais parlant de « harvester »   

Page 74: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet74

Exemple : Classification automatiqueExemple : Classification automatique

Problème– enquêtes client suite à un achat– analyser les questions ouvertes

● donner une vue synthétique● faire ressortir les points critiques

Technologie TAL– analyse morpho-syntaxique et identification du

thème– classification après un apprentissage sur un lot

représentatif

Page 75: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet75

Exemple : Gestion des brevetsExemple : Gestion des brevets

Problème– permettre de lire rapidement un brevet pour identifier

s'il est pertinent ou non par rapport à une recherche

Technologie TAL– collecte de formulations récurrentes et marqueurs

lexicaux qui introduisent des éléments rhétoriques précis

– mise en exergue des passages-clés : objet du brevet, aspects innovants, critiques des autres brevets, ...

Page 76: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet76

Exemple : E-commerce (1)Exemple : E-commerce (1)

Problème : vente par correspondance– permettre au client d'aller vite au produit cherché

● réduire les opérations

– proposer des produits du même type ou complémentaires pour vendre plus

Page 77: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet77

Exemple : E-commerce (2)Exemple : E-commerce (2)

Technologie TAL– synonymie/dérivation

● Ex. tenue de sport → tenue sportive● Ex. lecteur CD portable → baladeur CD

– transformer des requêtes en langue naturelle en des requêtes de base de données (analyse morpho-syntaxique et automates)

● Ex. « pantalon noir en velours à moins de 60 euros »   – article : pantalon– couleur : noir– matière : velours– prix : < 60 euros

Page 78: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet78

Exemple : Terminologie d'entrepriseExemple : Terminologie d'entreprise

Problème :– produire et maintenir une documentation technique– en plusieurs langues, adapté à diverses réglementations

→ mise en place d'une terminologie d'entreprise

Technologie TAL– identification de la langue, lemmatisation, analyse et

désambiguïsation morpho-syntaxique– extraction de terminologie multilingue (groupes

nominaux, ...)

Page 79: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet79

Exemple : Gestion de candidaturesExemple : Gestion de candidatures

Problème :– gérer de gros volumes de candidatures (20.000 à

200.000 CV par an)

Technologie TAL– reconnaissance optique de caractères (OCR)– détection de la langue, du type de document (CV,

lettre de motivation)– analyse morpho-syntaxique– application d'étiquettes sémantiques à certains

types de lexiques

Page 80: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet80

Exemple : Gestion de candidaturesExemple : Gestion de candidatures

Technologie TAL (suite)– normalisation (formation, ..)– interrogation suivant des critères (formation,

expérience professionnelle, compétences, localisation géographique, ...)

– envoi automatique d'accusé de réception– routage automatique des candidatures vers des

recruteurs particuliers– statistiques– possibilité de rendre le CV anonyme

Page 81: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet81

Et aussi...Et aussi...

● Génération de textes (bulletins météo, ...)● Concordanciers● Phonétisation (ex. lecture de textes pour aveugles)● Accentuation automatique● Annotation multilingue (alignements de phrases, de mots)● Résumé par compréhension, par extraction● Traduction assistée● Dialogue homme-machine● ...

Page 82: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet82

Qualité (actuelle) variableQualité (actuelle) variable

Exemples :– Analyse syntaxique

● locale (fenêtre d'analyse) → raisonnable, pas parfaite

– Traduction● automatique : encore médiocre● assistée : bons résultats

– Reconnaissance vocale● nécessite de nombreuses corrections

– Indexation● bons résultats

Page 83: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet83

Intérêts majeurs du TALIntérêts majeurs du TAL(il y en a d'autres)(il y en a d'autres)

● Traitement de gros volumes– recherche sur de grosses bases de données, sur

internet, ce qu'un humain ne pourrait pas faire● Vitesse

– plus rapide que ce que des humains pourraient faire

→ réactivité à un besoin urgent

● Dans certains cas (pour des choses suffisamment simples!), fiabilité– un humain commet plus facilement erreurs et oublis

Page 84: Traitement Automatique des Languesimagine.enpc.fr/~marletr/LaBRI/teaching/FormLing/slides/FormLingT… · 6. Faire l'action « Tourner le contenu de la case [Casserole] » jusqu'à

Formalismes linguistiques – TAL © 2005 R. Marlet84

BibliographieBibliographie

● La philosophie du langage, Sylvain Auroux, Presses Universitaires de France, 1996 (chapitre 8)

● Ingénierie des langues, sous la direction de Jean-Marie Pierrel, Editions Hermes, 2000

● Informatique et linguistique, Jean Véronis, Université de Provence, 2001 (disponible sur le web, chapitres 1 à 5: http://www.up.univ-mrs.fr/veronis/cours/INFZ18/)

● Le traitement automatique des langues dans les industries de l'information, Livre blanc, GRIIIL, Janvier 2005 (disponible sur le web: http://www.apil.asso.fr/docs/LB_GRIIIL.pdf)