© ch. boitet & wang-ju tsai (geta, clips) taln-02, nancy, 26/6/2002 1 taln-02, nancy, 24-27...

28
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG, Grenoble [email protected] , Wang- Ju. Tsai@imag. fr http://www-clips.imag.fr/geta/User/wang- La coédition langueUNL pour partager la révision entre les langues d'un document multilingue : un concept unificateur

Upload: idelle-mercier

Post on 04-Apr-2015

104 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20021

TALN-02, Nancy, 24-27 juin 2002

Christian BOITET & TSAI Wang-Ju

GETA, CLIPS, IMAG, [email protected], [email protected]

http://www-clips.imag.fr/geta/User/wang-ju.tsai/welcome.html

La coédition langueUNL pour partager la révision entre les langues

d'un document multilingue : un concept unificateur

Page 2: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20022

Plan

Motivation : la TA de qualité multisource & multicible

Pourquoi prendre UNL comme pivot pour cela ? Le prototype en cours de construction

principe : diviser en 3 la correspondance (graphetexte)

interface : nécessité de modes allant du « naïf » à « expert »

Un problème : calculer la 2° correspondance arbre-UNL treille morphosyntaxique

Page 3: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20023

Motivation : TA de qualité multisource & multicible

limites intrinsèques du processus classique30 pages standard de 250 mots, en heures (trad+rév):

40*n en THum, (12+24/3)*n = 20 n en THAM (6=,12≈,12≠) 8*n avec THAM + TAO-R, et (30/3)*n = 10*n si TAO-R seule

==> (30/3)*n = 10 ou même (30/2)*n = 15, en éliminant n ?

L0

L1

L2

Ln

PL0

L1

L2

Ln

Page 4: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20024

Idée de base : éditer un « pivot » indirectement, en éditant un texte

exemples de « coédition » réussieAmbassador (ancien), Multimétéo

2 problèmes: établir la correspondance

stucture abstraite texte concretsans devoir créer de nouvelles ressources

coûteuses

construire une interface réellement utilisable

Page 5: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20025

Pourquoi prendre UNL comme pivot pour cela ?

bref rappel UNL comme

projet langage format de document multilingue

qualités uniques du langage UNLmême s’il est perfectible !

Page 6: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20026

Langage : un graphe UNL simple

agtins plt

objmod

Ronaldo head(pof>body)

corner

left

goal(icl>thing)

score(icl>event,agt>human,fld>sport).@entry.@past.@complete

obj

pos

Ronaldo has headed the ball into the left corner of the goal”

Page 7: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20027

Un graphe UNL avec récursion et arbre auxiliaire UNL

Isaac sees that an apple falls and he explains it.

agt(explain(icl>do).@entry,Isaac(icl>proper noun))obj(explain(icl>do).@entry,:01)obj:01(fall(icl>occur).@entry,apple)and(explain(icl>do).@entry,see(icl>do))agt(see(icl>do),Isaac(icl>proper noun)obj(see(icl>do),:01)

explainIsaac:01agt

see

:01obj

andapple

fall

obj

Isaac:01 agt :01obj

Arbre UNL (auxiliaire)

explain

Isaac

agt

see

agt

:01

obj

obj

and

:01

apple

fall

obj

(Hyper)graphe UNL

Page 8: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20028

Que dire du langage UNL ?

Petite controverse en cours… Une façon de voir un (hyper)graphe UNL :

il correspond à un énoncé U-L en langue L

en représentant la structure abstraite d’un énoncé anglais équivalent U-E comme « vu depuis L »

==> les attributs sémantiques non nécessairement exprimés en L peuvent être absents : sous-spécification fréquente

aspect en venant du français, détermination ou nombre en venant du japonais, etc.

Page 9: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20029

Raisons d’utiliser UNL en TAO

(il est utilisable pour bien plus !) Réussite technique de la TAO par pivot

(ATLAS, PIVOT, ULTRA, KANT) UNL dérive du pivot d’ATLAS-II (Fujitsu)

conçu par le même auteur (H. Uchida) Qualité et couverture possibles :

ATLAS-II est le meilleur système E J depuis > 10 ansil a 586.000 termes dans chaque dico

Certes moins bien à la limite que le transfert par structures « multiniveau »MAIS on peut « coéditer » UNL à partir de toute langue

Page 10: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200210

Le format UNL-html original<HTML><HEAD><TITLE>

Example 1 El/UNL

</TITLE></HEAD><BODY>

[D:dn=Mar Example 1, on= UNL French, [email protected]]

[P]

[S:1]

{org:el}I ran in the park yesterday.{/org}

{unl}

agt(run(icl>do).@entry.@past,i(icl>person))

plc(run(icl>do).@entry.@past,park(icl>place).@def)

tim(run(icl>do).@entry.@past,yesterday)

{/unl}

{cn dtime=20020130-2030, deco=man}

我昨天在公園裡跑步 {/cn}

{de dtime=20020130-2035, deco=man}Ich lief gestern im Park. {/de}{es dtime=20020130-2031, deco=UNL-SP}Yo corri ayer en el parque.{/es}{fr dtime=20020131-0805, deco=UNL-FR}J’ai couru dans le parc hier. {/fr}[/S][S:2]{org:el}My dog barked at me.{/org}{unl}agt(bark(icl>do).@entry.@past,dog(icl>animal))gol(bark(icl>do).@entry.@past,i(icl>person))pos(dog(icl>animal),i(icl>person)){/unl}{de dtime=20020130-2036, deco=man}Mein Hund bellte zu mir.{/de}{fr dtime=20020131-0806, deco=UNL-FR}Mon chien aboya pour moi. [/S] [/P][/D]</BODY></HTML>

Page 11: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200211

Le format UNL-xml équivalent

même simplicité que UNL-html ouverture à tous les outils liés à xml

<unl:D on=“WJT” dt=“04032002”><unl:P number=“1”><unl:S number=“1’><unl:org: lang=“cn”>我昨天在公園裡跑步</unl:org><unl:unl sn=“Ariane” pn=“WJT” dt=“04032002”>agt(run.@entry.@past,i)plc(run.@entry.@past,park.@def)tim(run.@entry.@past,yesterday)</unl:unl>

<unl:GS lang=“cn”>我昨天在公園裡跑步 </unl:GS><unl:GS lang=“de”>Ich lief in den Park gestern. </unl:GS><unl:GS lang=“el”>I ran in the pary yesterday.</unl:GS><unl:GS lang=“es”>Yo corri ayer en el parque.</unl:GS><unl:GS lang=“fr”>J’ai couru dans le parc hier. </unl:GS></unl:S></unl:P></unl:D>

Page 12: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200212

Sortie du visualiseur et affichage dans un navigateur

Output from viewer

<HTML><HEAD><TITLE>

Example 1 El/UNL

</TITLE></HEAD><BODY>

J’ai couru dans le parc hier.

Mon chien aboya pour moi. </BODY></HTML>

Display

Example 1 El/UNLJ’ai couru dans le parc hier. Mon chien aboya pour moi.

Page 13: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200213

Scénario

lecture d’un document multilingue en langue Li désir de corriger des erreurs en Li passage dans l’environnement de coédition corrections

retardées sur le texteimmédiates sur le graphe

déconversion en Li itération si non satisfaisant, déconversion vers L1…

Ln si OK retour à la lecture

Page 14: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200214

Exemple de « FB2004 » cité dans l’article

FB2204 = Forum Barcelona 2004 projet de « normalisation d’usage » d’UNL espagnol, italien, russe, français, hindi 6-8 mois en 2001

Page 15: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200215

Exemple

Une cité retrouvera une zone côtière après un forum

La cité retrouvera une zone côtière après le Forum

Page 16: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200216

Le graphe UNL initial

agt(retrieve(icl>do).@entry.@future.@complete, city)

tim(retrieve(icl>do).@entry.@future.@complete, after)

obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )

obj(after, forum)

mod(zone(icl>place).@indef , coastal)

Page 17: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200217

Modifications à faire

ajouter ".@def" sur les nœuds contenant "city", “forum".

ajouter « icl>proper name » comme restriction de l’UW “forum”.

Page 18: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200218

L’interface

Accessible depuis un navigateur Mode normal sans voir de structure Mode expert (fanas, jeunes…)

Page 19: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200219

Le graphe UNL corrigé

agt(retrieve(icl>do).@entry.@future.@complete, city.@def)

tim(retrieve(icl>do).@entry.@future.@complete, after)

obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )

obj(after, forum(icl>proper name).@def)

mod(zone(icl>place).@indef , coastal)

Page 20: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200220

Original text

Possible Modifications

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

Show Graph

La cité retrouvera une zone côtière après le Forum.

Deconversion Find Lemma

Une cité retrouvera une zone côtière après un forum.

Spanish

Italian

Japanese

Chinese

Find Correspondence Save Graph EnglishAfter a Forum, a city willretrieve a coastal zone.

Ciudad recobrarà una zonade costal después Foro.

Città ricuperarà une zonacostiera dopo Forum.

フォーラムの後で , 都市は沿岸水域を取り出

在博覽會之後,城市 將獲得一片海岸域

After the Forum, the city will have recovered a coastal zone.

La ciudad habrá recobrado una zona de costal después el Foro

La città ha ricuperarà une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

QuitSaveMultiple text viewSimple text view

Page 21: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200221

Original text

Possible Modifications

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

Show Graph Deconversion Find Lemma

Une cité retrouvera une zone côtière après un forum.

EnglishAfter a Forum, a city willretrieve a coastal zone.

SpanishCiudad recobrarà una zonade costal después Foro.

Italian

Città ricuperarà une zonacostiera dopo Forum.

Japanese

フォーラムの後で , 都市は沿岸水域を取り出

Chinese 在博覽會之後,城市 將獲得

一片海岸域

Graph : lemma, latticeQuitSave

Find Correspondence Save Graph

After the Forum, the city will have retrieved a coastal zone.

La ciudad habrá una zona de costal después el Foro

La città ha ricuperarà une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

un cité retrouver un zone côtier après Forumun

a

dormatory

city

retrieve

find

remember

a a

zone

coastal after Forum

area

Page 22: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200222

QuitSaveMultiple text viewSimple text view

Original text

To Do

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

la

Une cité retrouvera une zone côtière après un forum.

La cité retrouvera une zone côtière après le Forum.

Graph : correspondence

un cité retrouver un zone côtier après Forumun

adormitory

cityretrieve

find

remember

a azone

coastal after Forumarea

retrieve (icl>do)(.@entry.@future)

city(agt)

zone(icl>place)(.@indef, obj) coastal(mod)

after(tim) Forum(obj)

indef art noun verb indef art noun adj prop indef art noun sin sin future sin sin sin sin sin

Show Graph Deconversion Find Lemma Find Correspondence Save Graph English

After a Forum, a city willretrieve a coastal zone.

Ciudad recobrará una zonade costal después Foro.

Città ricuperarà une zonacostiera dopo Forum.

フォーラムの後で , 都市は沿岸水域を取り出

在博覽會之後,城市 將獲得一片海岸域

After the Forum, the city will have recovered a coastal zone.

La ciudad habrá recobrado una zona de costal después el Foro.

La città ha ricuperato une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

Spanish

Italian

Japanese

Chinesele Maj

Page 23: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200223

Page 24: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200224

Page 25: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200225

Page 26: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200226

Principes de la coédition

Il est impossible en principe de déduire une modification sur le graphe d’une modification sur le texte Par exemple, remplacer "un" ("a") par "le" ("the") n’implique

pas que le nom suivant soit déterminé (.@def) "il aime la montagne" = "he likes mountains"

La révision n’est pas faite en modifiant directement le texte, mais en utilisant un système de menus

Les items de menu ont un « côté langue » et un « côté UNL » caché

Page 27: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200227

Construction de la correspondance Division en trois sous-correspondances

Graphe UNL=1=

Arbre UNL obtenu par dépliement du graphe=2=

SMS treille ou automate morphosyntaxique=3=

Texte Pour =2=, calcul des liaisons en utilisant

1 ou 2 dictionnaires L0anglais ou UNLRelations connues entre attributs L0 et attributs UNLPrincipe de projectivité maximale (rotation de l’arbre)

Page 28: © Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/2002 1 TALN-02, Nancy, 24-27 juin 2002 Christian BOITET & TSAI Wang-Ju GETA, CLIPS, IMAG,

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200228

Suite sous Internet Explorer

Scénario Vue des structures Construction de la correspondance

Conclusion anticipéeLa « révision partagée » semble possible

Coédition = concept unificateur entre TAO et génération multilingue