tralogy 2013-ttc platform
DESCRIPTION
présentation de la plateforme TTC, un démonstrateur en ligne des résultats du projet FP7 TTC: Translation, Terminology and Comparable Corpora. Pour plus d'informations : http://blog.syllabs.com/syllabs-a-tralogy-2013/ http://www.ttc.syllabs.com/TRANSCRIPT
![Page 1: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/1.jpg)
Plateforme Web TTC: de la compilation de
corpus à l’alignement bilingue
Helena Blancafort (1) Francis Bouvier(1), Béatrice Daille(2), Ulrich Heid(3), Anita Ramm(3), (1) Syllabs (Paris), (2)LINA - Université de Nantes, (3) IMS - Universität
Stuttgart TRALOGY II
18 Janvier 2013, Paris
The research leading to these results has received funding from the European Community's
Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 248005.
18/01/2013 1 Tralogy II
![Page 2: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/2.jpg)
Projet TTC Traduction, Terminologies et
Corpus Comparables Objectifs :
1) compilation de terminologies bilingues à partir des corpus comparables pour la traduction automatique et assistée
3) Démonstrateur de toute la chaîne en ligne atelier utilisateurs fin projet (Octobre 2012, Stuttgart)
• 7 langues: FR, EN, DE, ES, LV, RU, ZH
• 7 partenaires, Leader du projet : LINA - Université de Nantes
18/01/2013 Tralogy II 2
![Page 3: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/3.jpg)
Chaîne TTC
18/01/2013 Tralogy II 3
Extraction Monolingue
& Alignement Bilingue
TERM ES
CORPORA
Compilation de Corpus
Outil de Gestion
Terminologique
![Page 4: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/4.jpg)
18/01/2013 Tralogy II 4
![Page 5: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/5.jpg)
Module 1
Compilation de Corpus
18/01/2013 Tralogy II 5
Chaîne TTC
![Page 6: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/6.jpg)
1. Compilation de Corpus Qu’est-ce qu’un crawler ?
18/01/2013 Tralogy II 6
Outil pour récupérer de l’information du Web
Crawler thématique: un domaine précis
![Page 7: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/7.jpg)
Entrée et sortie
En entrée: 4-5 mots clés, termes du domaine recherchés
En sortie:
1) Fichiers textes, utf8, nettoyés
2) Fichiers originaux (pdf, doc, html)
3) Fichiers métadata
18/01/2013 Tralogy II 7
![Page 8: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/8.jpg)
Retour utilisateur – Crawler
Utile pour la création de terminologies ?
Avantages
permet de collecter un grand volume de données rapidement
un atout lors que le traducteur n’a pas de documents, terminologies du domaine
outil facil à prendre en main
Options avancées : plusieurs filtres
Type de site: officiel (.gouv)
Filtres : exclure wikipedia
18/01/2013 Tralogy II 8
![Page 9: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/9.jpg)
Retour utilisateur – Crawler
Utile pour la création de terminologies ?
Désavantages liées au Web
• surreprésentation de données commerciales ou peu scientifiques, degré de spécialisation faible
• Pour données spécifiques, relancer plusieurs crawls, paramètres avancées (ex: articles scientifiques).
• Corpus final composé de données très hétérogènes, difficile à évaluer • Fournir résumé du crawl : nb de mots, répétition des mots, liste des URL
• Dépendance des langues • Letton : moins de données sur le web
• Russe : moins de crawl possible (blocage BING)
• Dépendance des moteurs de recherche : services payants
• Contraintes traducteurs : LIMITÉS AU CORPUS DU CLIENT
18/01/2013 Tralogy II 9
![Page 10: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/10.jpg)
Module 2
Extraction Terminologique Monolingue
18/01/2013 Tralogy II 10
Chaîne TTC
![Page 11: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/11.jpg)
Extraction Terminologique Monolingue
• En entrée: corpus monolingue
output Babouk
• En sortie
format : tabulation (TSV), format terminologique standard (TBX), format compatible UIMA (XMI)
• Extraction de termes simples et complexes
• Innovation des outils TTC
TTC Term Suite variation terminologique, détection des élements néoclassiques
méthodes Knowledge-rich vs. knowledge-poor
18/01/2013 Tralogy II 11
![Page 12: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/12.jpg)
Retour utilisateurs Extraction monolingue
Points forts
• Résultats propres et de qualité, bien présentés
• Utile pour découvrir la terminologie d’un corpus ou d’un nouveau domaine
Points discutables
• Avis partagé sur les formats: TBX vs. TSV.
• Avis partagé sur la lemmatisation vs. formes
• Avis partagés sur outil via plateforme ou installation.
• Variantes Terminologiques: moins d’intérêt qu’attendu (plutôt pour filtrer variantes non voulues selon client)
18/01/2013 Tralogy II 12
![Page 13: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/13.jpg)
Demandes des utilisateurs Extraction monolingue
• Focus sur les abréviations
• Fournir le terme en contexte : montrer plusieurs phrases, autrement difficile de juger la pertinence du terme par rapport à un domaine.
• Possibilité de fournir les patrons terminologiques
• Disponible avec Term Suite (à installer)
• Indisponible via la plateforme
18/01/2013 Tralogy II 13
![Page 14: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/14.jpg)
Module 3
Alignement Bilingue
18/01/2013 Tralogy II 14
Chaîne TTC
![Page 15: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/15.jpg)
Alignement bilingue des terminologies
Pour un terme, plusieurs candidats
Conditions: lexique bilingue, disponible pour certaines pairs de langues
18/01/2013 Tralogy II 15
![Page 16: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/16.jpg)
Retour Utilisateurs Alignement Bilingue
Points forts
1) Outil très utile (pas d’autres disponibles)
Points abordés
1) Liste de candidats termes : 4-5 (pas plus!, long à vérifier)
2) Contexte: Montrer les termes en contexte, lien avec les phrases, autrement difficile d’évaluer une traduction.
3) Fonctions avancées: fonction par défaut suffit.
18/01/2013 Tralogy II 16
![Page 17: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/17.jpg)
Connexion avec
MyETB
(EuroTermBank)
Plateforme Terminologique 18/01/2013 Tralogy II 17
Chaîne TTC
![Page 18: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/18.jpg)
Editing TTC Output with MyETB
• Envoi des résultats terminologiques à la plateforme
• Possibilité de gérer différentes collections terminologiques
• Permet l’édition et gestion des terminologies TTC
Validation des termes et informations correspondantes
Suppresion des termes
Édition (ajout d’informations)
18 Tralogy II 18/01/2013
![Page 19: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/19.jpg)
Retour Utilisateurs MyETB
Avantages
• Utile d’avoir une plateforme web collaborative pour éditer les résultats
• Gestion de plusieurs terminologies
Améliorations proposées
• Editer les résultats monolingues TTC et renvoyer à la plateforme pour alignement bilingue
• Export des résultats format tabulaire simple
18/01/2013 Tralogy II 19
![Page 20: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/20.jpg)
Conclusions Retour Plateforme Web TTC
Evaluation globale très positive
Points forts
1) Illustration de toute la chaîne sous 1 seule plateforme
2) Interface agréable, prise en main facile
3) Architecture modulaire et possibilité paramétrage des outils
Différents profils, différents usages
Points délicats
1) Le web comme ressource pour le travail terminologique
18/01/2013 Tralogy II 20
![Page 21: Tralogy 2013-ttc platform](https://reader034.vdocuments.us/reader034/viewer/2022052623/55981ab81a28ab36048b466f/html5/thumbnails/21.jpg)
Thank you!
Merci!
¡Gracias!
Gràcies
Danke!
Paldies
谢谢
спасибо
18/01/2013 21 Tralogy II