© ch. boitet & wang-ju tsai (geta, clips) taln-02, nancy, 26/6/2002 1 taln-02, nancy, 24-27...

Post on 04-Apr-2015

104 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20021

TALN-02, Nancy, 24-27 juin 2002

Christian BOITET & TSAI Wang-Ju

GETA, CLIPS, IMAG, GrenobleChristian.Boitet@imag.fr, Wang-Ju.Tsai@imag.fr

http://www-clips.imag.fr/geta/User/wang-ju.tsai/welcome.html

La coédition langueUNL pour partager la révision entre les langues

d'un document multilingue : un concept unificateur

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20022

Plan

Motivation : la TA de qualité multisource & multicible

Pourquoi prendre UNL comme pivot pour cela ? Le prototype en cours de construction

principe : diviser en 3 la correspondance (graphetexte)

interface : nécessité de modes allant du « naïf » à « expert »

Un problème : calculer la 2° correspondance arbre-UNL treille morphosyntaxique

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20023

Motivation : TA de qualité multisource & multicible

limites intrinsèques du processus classique30 pages standard de 250 mots, en heures (trad+rév):

40*n en THum, (12+24/3)*n = 20 n en THAM (6=,12≈,12≠) 8*n avec THAM + TAO-R, et (30/3)*n = 10*n si TAO-R seule

==> (30/3)*n = 10 ou même (30/2)*n = 15, en éliminant n ?

L0

L1

L2

Ln

PL0

L1

L2

Ln

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20024

Idée de base : éditer un « pivot » indirectement, en éditant un texte

exemples de « coédition » réussieAmbassador (ancien), Multimétéo

2 problèmes: établir la correspondance

stucture abstraite texte concretsans devoir créer de nouvelles ressources

coûteuses

construire une interface réellement utilisable

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20025

Pourquoi prendre UNL comme pivot pour cela ?

bref rappel UNL comme

projet langage format de document multilingue

qualités uniques du langage UNLmême s’il est perfectible !

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20026

Langage : un graphe UNL simple

agtins plt

objmod

Ronaldo head(pof>body)

corner

left

goal(icl>thing)

score(icl>event,agt>human,fld>sport).@entry.@past.@complete

obj

pos

Ronaldo has headed the ball into the left corner of the goal”

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20027

Un graphe UNL avec récursion et arbre auxiliaire UNL

Isaac sees that an apple falls and he explains it.

agt(explain(icl>do).@entry,Isaac(icl>proper noun))obj(explain(icl>do).@entry,:01)obj:01(fall(icl>occur).@entry,apple)and(explain(icl>do).@entry,see(icl>do))agt(see(icl>do),Isaac(icl>proper noun)obj(see(icl>do),:01)

explainIsaac:01agt

see

:01obj

andapple

fall

obj

Isaac:01 agt :01obj

Arbre UNL (auxiliaire)

explain

Isaac

agt

see

agt

:01

obj

obj

and

:01

apple

fall

obj

(Hyper)graphe UNL

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20028

Que dire du langage UNL ?

Petite controverse en cours… Une façon de voir un (hyper)graphe UNL :

il correspond à un énoncé U-L en langue L

en représentant la structure abstraite d’un énoncé anglais équivalent U-E comme « vu depuis L »

==> les attributs sémantiques non nécessairement exprimés en L peuvent être absents : sous-spécification fréquente

aspect en venant du français, détermination ou nombre en venant du japonais, etc.

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/20029

Raisons d’utiliser UNL en TAO

(il est utilisable pour bien plus !) Réussite technique de la TAO par pivot

(ATLAS, PIVOT, ULTRA, KANT) UNL dérive du pivot d’ATLAS-II (Fujitsu)

conçu par le même auteur (H. Uchida) Qualité et couverture possibles :

ATLAS-II est le meilleur système E J depuis > 10 ansil a 586.000 termes dans chaque dico

Certes moins bien à la limite que le transfert par structures « multiniveau »MAIS on peut « coéditer » UNL à partir de toute langue

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200210

Le format UNL-html original<HTML><HEAD><TITLE>

Example 1 El/UNL

</TITLE></HEAD><BODY>

[D:dn=Mar Example 1, on= UNL French, mid=First.Author@here.com]

[P]

[S:1]

{org:el}I ran in the park yesterday.{/org}

{unl}

agt(run(icl>do).@entry.@past,i(icl>person))

plc(run(icl>do).@entry.@past,park(icl>place).@def)

tim(run(icl>do).@entry.@past,yesterday)

{/unl}

{cn dtime=20020130-2030, deco=man}

我昨天在公園裡跑步 {/cn}

{de dtime=20020130-2035, deco=man}Ich lief gestern im Park. {/de}{es dtime=20020130-2031, deco=UNL-SP}Yo corri ayer en el parque.{/es}{fr dtime=20020131-0805, deco=UNL-FR}J’ai couru dans le parc hier. {/fr}[/S][S:2]{org:el}My dog barked at me.{/org}{unl}agt(bark(icl>do).@entry.@past,dog(icl>animal))gol(bark(icl>do).@entry.@past,i(icl>person))pos(dog(icl>animal),i(icl>person)){/unl}{de dtime=20020130-2036, deco=man}Mein Hund bellte zu mir.{/de}{fr dtime=20020131-0806, deco=UNL-FR}Mon chien aboya pour moi. [/S] [/P][/D]</BODY></HTML>

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200211

Le format UNL-xml équivalent

même simplicité que UNL-html ouverture à tous les outils liés à xml

<unl:D on=“WJT” dt=“04032002”><unl:P number=“1”><unl:S number=“1’><unl:org: lang=“cn”>我昨天在公園裡跑步</unl:org><unl:unl sn=“Ariane” pn=“WJT” dt=“04032002”>agt(run.@entry.@past,i)plc(run.@entry.@past,park.@def)tim(run.@entry.@past,yesterday)</unl:unl>

<unl:GS lang=“cn”>我昨天在公園裡跑步 </unl:GS><unl:GS lang=“de”>Ich lief in den Park gestern. </unl:GS><unl:GS lang=“el”>I ran in the pary yesterday.</unl:GS><unl:GS lang=“es”>Yo corri ayer en el parque.</unl:GS><unl:GS lang=“fr”>J’ai couru dans le parc hier. </unl:GS></unl:S></unl:P></unl:D>

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200212

Sortie du visualiseur et affichage dans un navigateur

Output from viewer

<HTML><HEAD><TITLE>

Example 1 El/UNL

</TITLE></HEAD><BODY>

J’ai couru dans le parc hier.

Mon chien aboya pour moi. </BODY></HTML>

Display

Example 1 El/UNLJ’ai couru dans le parc hier. Mon chien aboya pour moi.

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200213

Scénario

lecture d’un document multilingue en langue Li désir de corriger des erreurs en Li passage dans l’environnement de coédition corrections

retardées sur le texteimmédiates sur le graphe

déconversion en Li itération si non satisfaisant, déconversion vers L1…

Ln si OK retour à la lecture

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200214

Exemple de « FB2004 » cité dans l’article

FB2204 = Forum Barcelona 2004 projet de « normalisation d’usage » d’UNL espagnol, italien, russe, français, hindi 6-8 mois en 2001

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200215

Exemple

Une cité retrouvera une zone côtière après un forum

La cité retrouvera une zone côtière après le Forum

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200216

Le graphe UNL initial

agt(retrieve(icl>do).@entry.@future.@complete, city)

tim(retrieve(icl>do).@entry.@future.@complete, after)

obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )

obj(after, forum)

mod(zone(icl>place).@indef , coastal)

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200217

Modifications à faire

ajouter ".@def" sur les nœuds contenant "city", “forum".

ajouter « icl>proper name » comme restriction de l’UW “forum”.

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200218

L’interface

Accessible depuis un navigateur Mode normal sans voir de structure Mode expert (fanas, jeunes…)

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200219

Le graphe UNL corrigé

agt(retrieve(icl>do).@entry.@future.@complete, city.@def)

tim(retrieve(icl>do).@entry.@future.@complete, after)

obj(retrieve(icl>do).@entry.@future.@complete, zone(icl>place).@indef )

obj(after, forum(icl>proper name).@def)

mod(zone(icl>place).@indef , coastal)

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200220

Original text

Possible Modifications

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

Show Graph

La cité retrouvera une zone côtière après le Forum.

Deconversion Find Lemma

Une cité retrouvera une zone côtière après un forum.

Spanish

Italian

Japanese

Chinese

Find Correspondence Save Graph EnglishAfter a Forum, a city willretrieve a coastal zone.

Ciudad recobrarà una zonade costal después Foro.

Città ricuperarà une zonacostiera dopo Forum.

フォーラムの後で , 都市は沿岸水域を取り出

在博覽會之後,城市 將獲得一片海岸域

After the Forum, the city will have recovered a coastal zone.

La ciudad habrá recobrado una zona de costal después el Foro

La città ha ricuperarà une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

QuitSaveMultiple text viewSimple text view

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200221

Original text

Possible Modifications

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

Show Graph Deconversion Find Lemma

Une cité retrouvera une zone côtière après un forum.

EnglishAfter a Forum, a city willretrieve a coastal zone.

SpanishCiudad recobrarà una zonade costal después Foro.

Italian

Città ricuperarà une zonacostiera dopo Forum.

Japanese

フォーラムの後で , 都市は沿岸水域を取り出

Chinese 在博覽會之後,城市 將獲得

一片海岸域

Graph : lemma, latticeQuitSave

Find Correspondence Save Graph

After the Forum, the city will have retrieved a coastal zone.

La ciudad habrá una zona de costal después el Foro

La città ha ricuperarà une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

un cité retrouver un zone côtier après Forumun

a

dormatory

city

retrieve

find

remember

a a

zone

coastal after Forum

area

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200222

QuitSaveMultiple text viewSimple text view

Original text

To Do

Second Deconversion

Manual Insertion

Une cité retrouvera une zone côtière après un forum.

la

Une cité retrouvera une zone côtière après un forum.

La cité retrouvera une zone côtière après le Forum.

Graph : correspondence

un cité retrouver un zone côtier après Forumun

adormitory

cityretrieve

find

remember

a azone

coastal after Forumarea

retrieve (icl>do)(.@entry.@future)

city(agt)

zone(icl>place)(.@indef, obj) coastal(mod)

after(tim) Forum(obj)

indef art noun verb indef art noun adj prop indef art noun sin sin future sin sin sin sin sin

Show Graph Deconversion Find Lemma Find Correspondence Save Graph English

After a Forum, a city willretrieve a coastal zone.

Ciudad recobrará una zonade costal después Foro.

Città ricuperarà une zonacostiera dopo Forum.

フォーラムの後で , 都市は沿岸水域を取り出

在博覽會之後,城市 將獲得一片海岸域

After the Forum, the city will have recovered a coastal zone.

La ciudad habrá recobrado una zona de costal después el Foro.

La città ha ricuperato une zona costiera dopo il Forum.

フォーラムの後で , 都市は沿岸水域を取り出すことを持っている。

在 博覽會之後,城市 將獲得一片海岸域

Spanish

Italian

Japanese

Chinesele Maj

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200223

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200224

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200225

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200226

Principes de la coédition

Il est impossible en principe de déduire une modification sur le graphe d’une modification sur le texte Par exemple, remplacer "un" ("a") par "le" ("the") n’implique

pas que le nom suivant soit déterminé (.@def) "il aime la montagne" = "he likes mountains"

La révision n’est pas faite en modifiant directement le texte, mais en utilisant un système de menus

Les items de menu ont un « côté langue » et un « côté UNL » caché

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200227

Construction de la correspondance Division en trois sous-correspondances

Graphe UNL=1=

Arbre UNL obtenu par dépliement du graphe=2=

SMS treille ou automate morphosyntaxique=3=

Texte Pour =2=, calcul des liaisons en utilisant

1 ou 2 dictionnaires L0anglais ou UNLRelations connues entre attributs L0 et attributs UNLPrincipe de projectivité maximale (rotation de l’arbre)

© Ch. Boitet & Wang-Ju Tsai (GETA, CLIPS) TALN-02, Nancy, 26/6/200228

Suite sous Internet Explorer

Scénario Vue des structures Construction de la correspondance

Conclusion anticipéeLa « révision partagée » semble possible

Coédition = concept unificateur entre TAO et génération multilingue

top related