© ch. boitet & wang-ju tsai (geta, clips) taln-02, nancy, 26/6/2002 1 taln-02, nancy, 24-27...
TRANSCRIPT
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20021
TALN-02, Nancy, 24-27 juin 2002
Christian BOITET & TSAI Wang-Ju
GETA, CLIPS, IMAG, [email protected], [email protected]
http://www-clips.imag.fr/geta/User/wang-ju.tsai/welcome.html
La coédition langueUNL pour partager la révision entre les langues
d'un document multilingue : un concept unificateur
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20022
Plan
Motivation : la TA de qualité multisource & multicible
Pourquoi prendre UNL comme pivot pour cela ? Le prototype en cours de construction
principe : diviser en 3 la correspondance (graphetexte)
interface : nécessité de modes allant du « naïf » à « expert »
Un problème : calculer la 2° correspondance arbre-UNL treille morphosyntaxique
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20023
Motivation : TA de qualité multisource & multicible
limites intrinsèques du processus classique30 pages standard de 250 mots, en heures (trad+rév):
40*n en THum, (12+24/3)*n = 20 n en THAM (6=,12≈,12≠) 8*n avec THAM + TAO-R, et (30/3)*n = 10*n si TAO-R seule
==> (30/3)*n = 10 ou même (30/2)*n = 15, en éliminant n ?
L0
L1
…
L2
Ln
PL0
L1
…
L2
Ln
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20024
Idée de base : éditer un « pivot » indirectement, en éditant un texte
exemples de « coédition » réussieAmbassador (ancien), Multimétéo
2 problèmes: établir la correspondance
stucture abstraite texte concretsans devoir créer de nouvelles ressources
coûteuses
construire une interface réellement utilisable
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20025
Pourquoi prendre UNL comme pivot pour cela ?
bref rappel UNL comme
projet langage format de document multilingue
qualités uniques du langage UNLmême s’il est perfectible !
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20026
Langage : un graphe UNL simple
agtins plt
objmod
Ronaldo head(pof>body)
corner
left
goal(icl>thing)
score(icl>event,agt>human,fld>sport).@entry.@past.@complete
obj
pos
Ronaldo has headed the ball into the left corner of the goal”
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20027
Un graphe UNL avec récursion et arbre auxiliaire UNL
Isaac sees that an apple falls and he explains it.
agt(explain(icl>do).@entry,Isaac(icl>proper noun))obj(explain(icl>do).@entry,:01)obj:01(fall(icl>occur).@entry,apple)and(explain(icl>do).@entry,see(icl>do))agt(see(icl>do),Isaac(icl>proper noun)obj(see(icl>do),:01)
explainIsaac:01agt
see
:01obj
andapple
fall
obj
Isaac:01 agt :01obj
Arbre UNL (auxiliaire)
explain
Isaac
agt
see
agt
:01
obj
obj
and
:01
apple
fall
obj
(Hyper)graphe UNL
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20028
Que dire du langage UNL ?
Petite controverse en cours… Une façon de voir un (hyper)graphe UNL :
il correspond à un énoncé U-L en langue L
en représentant la structure abstraite d’un énoncé anglais équivalent U-E comme « vu depuis L »
==> les attributs sémantiques non nécessairement exprimés en L peuvent être absents : sous-spécification fréquente
aspect en venant du français, détermination ou nombre en venant du japonais, etc.
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20029
Raisons d’utiliser UNL en TAO
(il est utilisable pour bien plus !) Réussite technique de la TAO par pivot
(ATLAS, PIVOT, ULTRA, KANT) UNL dérive du pivot d’ATLAS-II (Fujitsu)
conçu par le même auteur (H. Uchida) Qualité et couverture possibles :
ATLAS-II est le meilleur système E J depuis > 10 ansil a 586.000 termes dans chaque dico
Certes moins bien à la limite que le transfert par structures « multiniveau »MAIS on peut « coéditer » UNL à partir de toute langue
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200210
Le format UNL-html original<HTML><HEAD><TITLE>
Example 1 El/UNL
</TITLE></HEAD><BODY>
[D:dn=Mar Example 1, on= UNL French, [email protected]]
[P]
[S:1]
{org:el}I ran in the park yesterday.{/org}
{unl}
agt(run(icl>do).@entry.@past,i(icl>person))
plc(run(icl>do).@entry.@past,park(icl>place).@def)
tim(run(icl>do).@entry.@past,yesterday)
{/unl}
{cn dtime=20020130-2030, deco=man}
我昨天在公園裡跑步 {/cn}
{de dtime=20020130-2035, deco=man}Ich lief gestern im Park. {/de}{es dtime=20020130-2031, deco=UNL-SP}Yo corri ayer en el parque.{/es}{fr dtime=20020131-0805, deco=UNL-FR}J’ai couru dans le parc hier. {/fr}[/S][S:2]{org:el}My dog barked at me.{/org}{unl}agt(bark(icl>do).@entry.@past,dog(icl>animal))gol(bark(icl>do).@entry.@past,i(icl>person))pos(dog(icl>animal),i(icl>person)){/unl}{de dtime=20020130-2036, deco=man}Mein Hund bellte zu mir.{/de}{fr dtime=20020131-0806, deco=UNL-FR}Mon chien aboya pour moi. [/S] [/P][/D]</BODY></HTML>
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200211
Le format UNL-xml équivalent
même simplicité que UNL-html ouverture à tous les outils liés à xml
<unl:D on=“WJT” dt=“04032002”><unl:P number=“1”><unl:S number=“1’><unl:org: lang=“cn”>我昨天在公園裡跑步</unl:org><unl:unl sn=“Ariane” pn=“WJT” dt=“04032002”>agt(run.@entry.@past,i)plc(run.@entry.@past,park.@def)tim(run.@entry.@past,yesterday)</unl:unl>
<unl:GS lang=“cn”>我昨天在公園裡跑步 </unl:GS><unl:GS lang=“de”>Ich lief in den Park gestern. </unl:GS><unl:GS lang=“el”>I ran in the pary yesterday.</unl:GS><unl:GS lang=“es”>Yo corri ayer en el parque.</unl:GS><unl:GS lang=“fr”>J’ai couru dans le parc hier. </unl:GS></unl:S></unl:P></unl:D>
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200212
Sortie du visualiseur et affichage dans un navigateur
Output from viewer
<HTML><HEAD><TITLE>
Example 1 El/UNL
</TITLE></HEAD><BODY>
J’ai couru dans le parc hier.
Mon chien aboya pour moi. </BODY></HTML>
Display
Example 1 El/UNLJ’ai couru dans le parc hier. Mon chien aboya pour moi.
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200213
Scénario
lecture d’un document multilingue en langue Li désir de corriger des erreurs en Li passage dans l’environnement de coédition corrections
retardées sur le texteimmédiates sur le graphe
déconversion en Li itération si non satisfaisant, déconversion vers L1…
Ln si OK retour à la lecture
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200214
Exemple de « FB2004 » cité dans l’article
FB2204 = Forum Barcelona 2004 projet de « normalisation d’usage » d’UNL espagnol, italien, russe, français, hindi 6-8 mois en 2001
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200215
Exemple
Une cité retrouvera une zone côtière après un forum
La cité retrouvera une zone côtière après le Forum
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200216
Le graphe UNL initial
agt(retrieve(icl>do).@entry.@future.@complete, city)
tim(retrieve(icl>do).@entry.@future.@complete, after)
obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )
obj(after, forum)
mod(zone(icl>place).@indef , coastal)
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200217
Modifications à faire
ajouter ".@def" sur les nœuds contenant "city", “forum".
ajouter « icl>proper name » comme restriction de l’UW “forum”.
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200218
L’interface
Accessible depuis un navigateur Mode normal sans voir de structure Mode expert (fanas, jeunes…)
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200219
Le graphe UNL corrigé
agt(retrieve(icl>do).@entry.@future.@complete, city.@def)
tim(retrieve(icl>do).@entry.@future.@complete, after)
obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )
obj(after, forum(icl>proper name).@def)
mod(zone(icl>place).@indef , coastal)
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200220
Original text
Possible Modifications
Second Deconversion
Manual Insertion
Une cité retrouvera une zone côtière après un forum.
Show Graph
La cité retrouvera une zone côtière après le Forum.
Deconversion Find Lemma
Une cité retrouvera une zone côtière après un forum.
Spanish
Italian
Japanese
Chinese
Find Correspondence Save Graph EnglishAfter a Forum, a city willretrieve a coastal zone.
Ciudad recobrarà una zonade costal después Foro.
Città ricuperarà une zonacostiera dopo Forum.
フォーラムの後で , 都市は沿岸水域を取り出
在博覽會之後,城市 將獲得一片海岸域
After the Forum, the city will have recovered a coastal zone.
La ciudad habrá recobrado una zona de costal después el Foro
La città ha ricuperarà une zona costiera dopo il Forum.
フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。
在 博覽會之後,城市 將獲得一片海岸域
QuitSaveMultiple text viewSimple text view
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200221
Original text
Possible Modifications
Second Deconversion
Manual Insertion
Une cité retrouvera une zone côtière après un forum.
Show Graph Deconversion Find Lemma
Une cité retrouvera une zone côtière après un forum.
EnglishAfter a Forum, a city willretrieve a coastal zone.
SpanishCiudad recobrarà una zonade costal después Foro.
Italian
Città ricuperarà une zonacostiera dopo Forum.
Japanese
フォーラムの後で , 都市は沿岸水域を取り出
Chinese 在博覽會之後,城市 將獲得
一片海岸域
Graph : lemma, latticeQuitSave
Find Correspondence Save Graph
After the Forum, the city will have retrieved a coastal zone.
La ciudad habrá una zona de costal después el Foro
La città ha ricuperarà une zona costiera dopo il Forum.
フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。
在 博覽會之後,城市 將獲得一片海岸域
un cité retrouver un zone côtier après Forumun
a
dormatory
city
retrieve
find
remember
a a
zone
coastal after Forum
area
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200222
QuitSaveMultiple text viewSimple text view
Original text
To Do
Second Deconversion
Manual Insertion
Une cité retrouvera une zone côtière après un forum.
la
Une cité retrouvera une zone côtière après un forum.
La cité retrouvera une zone côtière après le Forum.
Graph : correspondence
un cité retrouver un zone côtier après Forumun
adormitory
cityretrieve
find
remember
a azone
coastal after Forumarea
retrieve (icl>do)(.@entry.@future)
city(agt)
zone(icl>place)(.@indef, obj) coastal(mod)
after(tim) Forum(obj)
indef art noun verb indef art noun adj prop indef art noun sin sin future sin sin sin sin sin
Show Graph Deconversion Find Lemma Find Correspondence Save Graph English
After a Forum, a city willretrieve a coastal zone.
Ciudad recobrará una zonade costal después Foro.
Città ricuperarà une zonacostiera dopo Forum.
フォーラムの後で , 都市は沿岸水域を取り出
在博覽會之後,城市 將獲得一片海岸域
After the Forum, the city will have recovered a coastal zone.
La ciudad habrá recobrado una zona de costal después el Foro.
La città ha ricuperato une zona costiera dopo il Forum.
フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。
在 博覽會之後,城市 將獲得一片海岸域
Spanish
Italian
Japanese
Chinesele Maj
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200223
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200224
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200225
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200226
Principes de la coédition
Il est impossible en principe de déduire une modification sur le graphe d’une modification sur le texte Par exemple, remplacer "un" ("a") par "le" ("the") n’implique
pas que le nom suivant soit déterminé (.@def) "il aime la montagne" = "he likes mountains"
La révision n’est pas faite en modifiant directement le texte, mais en utilisant un système de menus
Les items de menu ont un « côté langue » et un « côté UNL » caché
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200227
Construction de la correspondance Division en trois sous-correspondances
Graphe UNL=1=
Arbre UNL obtenu par dépliement du graphe=2=
SMS treille ou automate morphosyntaxique=3=
Texte Pour =2=, calcul des liaisons en utilisant
1 ou 2 dictionnaires L0anglais ou UNLRelations connues entre attributs L0 et attributs UNLPrincipe de projectivité maximale (rotation de l’arbre)
© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200228
Suite sous Internet Explorer
Scénario Vue des structures Construction de la correspondance
Conclusion anticipéeLa « révision partagée » semble possible
Coédition = concept unificateur entre TAO et génération multilingue