méthodes de traitement automatique des langues (tal) en ... · pdf file• rover...
TRANSCRIPT
![Page 1: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/1.jpg)
Méthodes de traitement automatique
des langues (TAL) en Humanités numériques
Entity Linking Extraction de propositions
Séminaire du médialab, 1 déc 2015
Pablo Ruiz Fabo — LATTICE
![Page 2: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/2.jpg)
Résumé
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
2
![Page 3: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/3.jpg)
Défis pour application du TAL en HN
• Variabilité thématique et formelle des
corpus
– Adaptation des outils requise
– Travail manuel des chercheurs utilisant les
technologies d’analyse automatique requis
• Connaître les implications des choix
d’outil pour les résultats obtenus et
modélisation des données textuelles 3
![Page 4: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/4.jpg)
how can texts be explored quali-
quantitatively?
how can texts be turned into networks?
4
Du texte aux réseaux
![Page 5: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/5.jpg)
how can texts be explored quali-
quantitatively?
how can texts be turned into networks?
5
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Du texte aux réseaux
![Page 6: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/6.jpg)
Nœuds du réseau
• Extraction lexicale (n-grams)
• Extraction d’entités (personnes,
organisations, …)
6
![Page 7: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/7.jpg)
Nœuds du réseau
• Extraction lexicale (n-grams)
• Extraction d’entités (personnes,
organisations, …)
7
TreeTagger et/ou patrons de
catégories grammaticales Alchemy API
![Page 8: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/8.jpg)
Résumé
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
8
![Page 9: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/9.jpg)
Nœuds du réseau : Entity Linking
• Tâche: Repérer des concepts d’une ontologie
dans un corpus à travers de mentions qui
font référence à ces concepts
– Ex. acteurs du corpus, sujets abordés …
• Utilité: Établir des liens entre les éléments du
corpus à travers leurs concepts en commun
malgré la variabilité dans les mentions
– Réseaux de cooccurrence, navigation par concept
9
(Résolution référentielle des entités)
![Page 10: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/10.jpg)
Entity Linking : Étapes
• Reconnaissance des mentions
– Reconnaissance des entités nommées
• Désambiguïsation des mentions vers leur
concept (entité) dans l’ontologie
– Entity Linking
10
![Page 11: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/11.jpg)
Reconnaissance des entités
nommées (REN) – Séquences textuelles appartenant à des types
spécifiques (ex. personnes, organisations,
lieux, produits, substances, autres)
– Exemple d’un inventaire de types courant:
Ontologie DBpedia
http://mappings.dbpedia.org/server/ontology/classes
– Inventaire classique de types:
Entités étendues de Sekine (2003) http://nlp.cs.nyu.edu/ene/
11
![Page 12: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/12.jpg)
REN : Défis
• Techniques: dictionnaires et/ou étiquetage de
séquences (Tjong Kim Sang et al.(2003); Huang et al.;
(2015))
12
Le Monde, 20 nov 2015
![Page 13: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/13.jpg)
REN : Défis
• Techniques: dictionnaires et/ou étiquetage de
séquences (Tjong Kim Sang et al.(2003); Huang et al.;
(2015))
13
Le Monde, 20 nov 2015
![Page 14: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/14.jpg)
Entity Linking : Défis
1. Mentions ambigües entre plusieurs entités possibles
2. Plusieurs mentions possibles pour chaque entité
Barack Hussein Obama, Barack Obama, Obama, Mr.
Obama, President Obama, POTUS, #POTUS
14
When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned
When Page played Kashmir at Knebworth, his Les Paul was uniquely tuned Page: Larry vs. Jimmy
Kashmir: Région vs. chanson
Ho
ffar
t et
al.
20
11
![Page 15: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/15.jpg)
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
Résumé
15
![Page 16: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/16.jpg)
Though AlchemyAPI offers a trustworthy
service, we don’t like relying on it. In
particular, we don’t like that the service is
offered as a “black box” and that the exact
extraction algorithm is secret.
16
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Texte => Réseau : Besoins des utilisateurs
![Page 17: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/17.jpg)
Though AlchemyAPI offers a trustworthy
service, we don’t like relying on it. In
particular, we don’t like that the service is
offered as a “black box” and that the exact
extraction algorithm is secret.
17
Venturini and Guido (2012). Once upon a text:
An ANT tale in text analytics.
Texte => Réseau : Besoins des utilisateurs
Éviter « black box »
![Page 18: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/18.jpg)
Texte => Réseau : Besoins des utilisateurs
18
Venturini et al. (2012) Once Upon a Text
[médialab à SciencesPo]
The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging
The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.
![Page 19: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/19.jpg)
Texte => Réseau : Besoins des utilisateurs
Informations pour guider filtrage manuel
19
Venturini et al. (2012) Once Upon a Text
[médialab à SciencesPo]
The careful use of natural language processing algorithms could provide better filtering metrics and support in expression merging
The manual filtering is crucial because it allows entities to be reduced to a set size appropriate for analysis, but also recovering important entities that could have been excluded by the automatic filtering.
![Page 20: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/20.jpg)
• Traiter des corpus sur des thématiques
variées et avec diverses caractéristiques
textuelles
20
Texte => Réseau : Besoins des utilisateurs
![Page 21: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/21.jpg)
• Traiter des corpus sur des thématiques
variées et avec diverses caractéristiques
textuelles
• Note : la qualité des résultats fournis par
chaque outil de Entity Linking varie selon
les caractéristiques des corpus (Cornolti et
al. 2013, Usbeck et al. 2014).
21
Texte => Réseau : Besoins des utilisateurs
![Page 22: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/22.jpg)
Approche Entity Linking selon ces besoins
BESOIN APPROCHE
• Éviter des black box • Outils à code ouvert
• Aborder des corpus variés, sachant que les forces de chaque outil varient selon le corpus
• Combinaison d’outils pour obtenir des résultats complémentaires
• Filtrage manuel d’entités • Informations pour guider
le filtrage
• Métriques sur la qualité des annotations
• Accès simultané au texte pour valider annotations
• Sélection automatique optionnelle
22
![Page 23: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/23.jpg)
Outils Entity Linking (EL)
• Combinaison d’outils
• Outils publics qui désambiguïsent vers des
ontologies générales (DBpedia, YAGO, Babelnet)
23
2010 2011 2008 2011 2014
![Page 24: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/24.jpg)
EL : Infos de sortie
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
24
![Page 25: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/25.jpg)
EL : Infos de sortie (étape REN)
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
25
![Page 26: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/26.jpg)
EL : Infos de sortie (REN + EL)
SOCCER –JAPAN GET LUCKY WIN,
CHINA IN SURPRISE DEFEAT
26
![Page 27: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/27.jpg)
EL : Désambiguïsation
• Comparaison des contextes d’une mention
dans le corpus et du texte relié aux entités
dans la base de connaissance (tokens, liens)
• Mesure de cohérence entre les
désambiguïsations proposées à l’intérieur
d’un document (liens entrants communs) • Milne & Witten (2008)
• Ferragina et al. (2010)
• Hoffart et al. (2011)
• Moro et al. (2014)
27
![Page 28: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/28.jpg)
EL : Combinaison d’outils • Sélection par vote pondéré basée sur:
– Nombre de systèmes ayant produit une annotation
– Performance de chacun de ces systèmes sur un
corpus contenant des annotations semblables aux
annotations souhaitées par l’utilisateur
• Résultats combinés améliorent par rapport
aux résultats individuels des systèmes. • Méthode ROVER de Fiscus (1997)
• ROVER chez projet PASSAGE (De la Clergerie et al,
2008)
• Implémentation et évaluation dans Ruiz & Poibeau (2015)
28
![Page 29: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/29.jpg)
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations entre
acteurs ou sujets
– Tâche | Approche | Démo
Résumé
29
![Page 30: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/30.jpg)
Démo Entity Linking : Corpus
30
1. Rapport officiel sur les causes de la crise
par le Congrès
![Page 31: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/31.jpg)
Démo Entity Linking : Corpus
31
2. Entretiens avec témoins
![Page 32: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/32.jpg)
Démo EL : Format du Corpus
32
PDF => XML (format du moteur Solr)
![Page 33: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/33.jpg)
Démo Corpus PoliInformatics
2010 2011 2008 2011 2013
http://apps.lattice.cnrs.fr/nav/gui
résultats affichés sur la démo pas affichés
Description: Ruiz, Poibeau & Mélanie (2015).
![Page 34: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/34.jpg)
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
34
![Page 35: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/35.jpg)
Extraction de propositions
35
![Page 36: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/36.jpg)
36
Extraction de propositions
![Page 37: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/37.jpg)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
37
![Page 38: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/38.jpg)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
38
![Page 39: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/39.jpg)
Acteurs (ou pays)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of natural
regeneration within the definitions of
"afforestation" and "reforestation."
39
![Page 40: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/40.jpg)
Message (objet de la négoc.)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of
natural regeneration within the
definitions of "afforestation" and
"reforestation."
40
![Page 41: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/41.jpg)
Prédicats (soutien/opposition)
The EU, with NEW ZEALAND and opposed
by CHINA, MALAYSIA and BHUTAN,
supported including the promotion of
natural regeneration within the definitions of
"afforestation" and "reforestation."
41
![Page 42: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/42.jpg)
Acteur + Prédicat + Message
42
![Page 43: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/43.jpg)
Acteur + Prédicat + Message =
Proposition
ACTEURS PRÉDICATS MESSAGE
European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
New_Zealand
China
~supported Malaysia
Bhutan
43
![Page 44: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/44.jpg)
Propositions
ACTEURS PRÉDICATS MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
44
![Page 45: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/45.jpg)
Propositions
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
45
ACTEURS PRÉDICATS NOMINAUX
MESSAGE
1 Group_of_77 / China
proposal
to include research and development in the transport and energy sectors in the priority areas to be financed by the SCCF.
![Page 46: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/46.jpg)
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
46
![Page 47: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/47.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
• Traitement de la négation
47
![Page 48: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/48.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
• Traitement de la négation
48
![Page 49: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/49.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He opposed the argument that …
• Traitement de la négation
49
![Page 50: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/50.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He opposed the argument that …
• Traitement de la négation
50
? ? ?
![Page 51: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/51.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He [=>China] opposed the
argument that …
• Traitement de la négation
51
![Page 52: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/52.jpg)
Technologies
• Étiquetage des rôles sémantiques
• Résolution des anaphores pronominales
– With Benin and Zimbabwe, China cautioned
against the COP losing focus on the
Convention. He [=>China] opposed the
argument that …
• Traitement de la négation
52
![Page 53: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/53.jpg)
Utilité
• Une fois les propositions identifiées, une
extraction lexicale à l’intérieur des
messages des propositions est possible
• Cela permet de
– relier les acteurs à des notions clés
exprimées dans leur messages
– caractériser le lien (opposition, support …)
53
![Page 54: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/54.jpg)
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
54
![Page 55: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/55.jpg)
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
55
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
![Page 56: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/56.jpg)
Utilité
• Quel acteur est d’accord (en désaccord)
avec quel autre sur quel sujet ?
56
ACTEURS PRÉDICATS VERBAUX
MESSAGE
1 European_Union supported including the promotion of
natural regeneration within the definitions of "afforestation" and "reforestation."
2 New_Zealand
3 China
~supported 4 Malaysia
5 Bhutan
![Page 57: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/57.jpg)
• Défis pour TAL en Humanités numériques
• Du texte aux réseaux
• Entity Linking : acteurs et sujets dans un
corpus
– Tâche | Approche | Démo
• Extraction de propositions : relations
entre acteurs ou sujets
– Tâche | Approche | Démo
Résumé
57
![Page 58: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/58.jpg)
Démo
Extraction de propositions
58
![Page 59: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/59.jpg)
Références
Marco Cornolti, Paolo Ferragina, and Massimiliano
Ciaramita. (2013). A framework for benchmarking
entity-annotation systems. In Proc. of WWW, 249–260.
Éric V. De La Clergerie, Olivier Hamon, Djamel Mostefa,
Christelle Ayache, Patrick Paroubek, and Anne Vilnat.
(2008). Passage: from French parser evaluation to
large sized treebank. In Proc. of LREC 2008, 3570–
3576.
Paolo Ferragina and Ugo Scaiella. (2010). Tagme: on-the-fly
annotation of short text fragments (by wikipedia
entities). In Proc. of CIKM’10, 1625–1628.
Jonathan G. Fiscus. (1997). A post-processing system to
yield reduced word error rates: Recognizer output
voting error reduction (ROVER). In Proc. of the IEEE
Workshop on Automatic Speech Recognition and
Understanding, 1997, 347–354.
Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino,
Hagen Fürstenau, Manfred Pinkal, Marc Spaniol,
Bilyana Taneva, Stefan Thater, and Gerhard Weikum.
(2011). Robust disambiguation of named entities in
text. In Proc. of EMNLP, 782–792.
Heng Ji, Joel Nothman and Ben Hachey. (2014). Overview
of TAC-KBP2014 Entity Discovery and Linking Tasks. In
Proc. Text Analysis Conference.
Huang et al. (2015). Bidirectional LSTM-CRF Models for
Sequence Tagging. arXiv preprint arXiv:1508.01991
Pablo N. Mendes, Max Jakob, Andrés García-Silva, and
Christian Bizer. (2011). DBpedia spotlight: shedding
light on the web of documents. In Proc. of the 7th Int.
Conf. on Semantic Systems, I-SEMANTICS’11, 1–8.
David Milne and Ian H. Witten. (2008a). An effective, low-
cost measure of semantic relatedness obtained from
Wikipedia links. In Proc. of AAAI Workshop on
Wikipedia and Artificial Intelligence: an Evolving
Synergy, 25–30.
Andrea Moro, Alessandro Raganato, and Roberto Navigli.
(2013). Entity Linking meets Word Sense
Disambiguation: A Unified Approach. Transactions of
the ACL, 2, 231–244.
Thierry Poibeau, Horacio Saggion, Jakub Piskorski, and
Roman Yangarber. Multi-source, Multilingual
Information Extraction and Summarization. Springer
Science & Business Media, 2012.
Pablo Ruiz, Thierry Poibeau, Frédérique Mélanie. (2015).
Entity Linking with corpus coherence combining open
source annotators. In Proc. NAACL-HLT Demos
Satoshi Sekine, Kiyoshi Sudo and Chikashi Nobata. (2002).
Extended Named Entity Hierarchy. In Proc. LREC.
Eric F. Tjong Kim Sang and Fien De Meulder. (2003).
Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition. In
Proc. CoNLL. (ACL)
Ricardo Usbeck et al. (2015). GERBIL – General Entity
Annotator Benchmarking Framework. In Proc. of
WWW.
Seth Van Hooland, Max De Wilde, Ruben Verborgh, Thomas
Steiner, and Rik Van de Walle. (2013). Exploring entity
recognition and disambiguation for cultural heritage
collections. In Digital Scholarship in the Humanities,
Oxford: Oxford University Press.
59
![Page 61: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/61.jpg)
Slides supplémentaires
61
![Page 62: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/62.jpg)
• Based on several factors, depending on the tool
• A usual factor is overlap between the mention’s
context and the description of the entity in the
knowledge-base (Wikipedia definition or article text)
62
Disambiguation (1)
Corpus Query: OTS Wikipedia Articles for OTS
![Page 63: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/63.jpg)
• How do the tools decide that Office of Thrift
Supervision is a better candidate than Office of Tax
Simplification (or other entity candidates)?
• Part of the answer lies in comparing the context
around the mention with text for each entity the
knowledge-base
• E.g. expressions like FDIC, mortgage or Washington
Mutual (as WaMu) are found both in the corpus
mentions for OTS and in the Wikipedia page for Office
of Thrift Supervision, but not in the page for Office of
Tax Simplification.
• Several other factors are usually taken into account
(e.g. coherence (see slides above) or other information
derived from Wikipedia link structure). 63
Disambiguation (2)
![Page 64: Méthodes de traitement automatique des langues (TAL) en ... · PDF file• ROVER chez projet PASSAGE (De la Clergerie et al, ... 2010 2011 2008 2011 2013 ... voting error reduction](https://reader034.vdocuments.us/reader034/viewer/2022042801/5ab6857c7f8b9a7c5b8db111/html5/thumbnails/64.jpg)
Cohérence
64
Thomas and Mario are strikers playing in
Munich
(Moro and Navigli, 2014)