![Page 1: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/1.jpg)
Interface syntaxe-sémantique pour l ’extraction d ’information
Amalia TodirascuEquipe Langue et DialogueLORIA
![Page 2: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/2.jpg)
Plan Contexte
problématique des systèmes d ’extraction d ’information
objectifs
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de description
Interface syntaxe-sémantique Perspectives
![Page 3: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/3.jpg)
Systèmes d ’extraction d ’information
But: identification des informations pertinentes
pour un domaine structurer ces informations
applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain
![Page 4: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/4.jpg)
Systèmes d ’extraction d ’information
Documents
valider
Analyse syntaxique locale
Lexique
conceptscandidats
Ontologie
Extraction d ’information
Patronsmorpho-
syntaxiques
Ressources linguistiques
Identification des noms
Heuristiques
“the hacker had the root password”
(and password (some hasP root))hacker
![Page 5: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/5.jpg)
Objectifs du projet Vulcain
But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes
Augmenter la portabilité : réutilisation des ressources linguistiques
(grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du
domaine (inférences en logiques de description)
Augmenter la précision: ressources linguistiques validés par linguistes
(grammaires TAG)
concepts validés par l ’ontologie
![Page 6: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/6.jpg)
Un exemple
« Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password
protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a
lilo prompt for a password ?»Corpus:
erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de
places, personnes, organisations, fonctions)
![Page 7: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/7.jpg)
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
![Page 8: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/8.jpg)
Syntaxe (I)
techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-
syntaxiques automates à états finis statistiques (collocations)
difficile à construire une représentation sémantique structure syntaxique
primitive
analyse syntaxique classique structure syntaxique
et structure de dépendances
besoin de ressources linguistiques adaptées pour les textes spécialisés
mal adaptée pour des textes non-spécialisés: besoin de ressources
de grande taille, complètes
![Page 9: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/9.jpg)
Syntaxe (II)
Grammaires TAGs: localité arbres dérivés et de dérivation grammaires TAGs disponibles
combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents
![Page 10: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/10.jpg)
Syntaxe (III)
« the root password was used by an unknown user»
N
A N*
root
N
A N*
unknown
N
user
N
password
![Page 11: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/11.jpg)
Syntaxe (IV)
Modification de l’analyseur Lopez: modularité ressources en format standard (TAGML -
XML) optimisations
adapter les ressources pour les besoins lexique spécifique grammaire locale
![Page 12: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/12.jpg)
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
![Page 13: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/13.jpg)
Ontologies
Définition: une description simplifiée des connaissances du domaine
portabilité réduitedéveloppement des méthodes
d ’extraction d ’ontologies à partir des textes: identification des termes (instances des
concepts) relation termes-concepts relations entre termes
![Page 14: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/14.jpg)
Formalismes de représentation d ’ontologies
structurer les connaissances (hiérarchie des concepts)
manipuler des connaissances incomplètes ou incorrectes
mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification
éviter les redondances
![Page 15: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/15.jpg)
Logiques de description (I)
Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet
organisation hiérarchique
syntaxe et sémantique bien définies
![Page 16: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/16.jpg)
Logiques de description (II)
organisation hiérarchique: conceptuel (T-Box)
conceptsrôles
asertionnel (A-Box)instances
procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC
![Page 17: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/17.jpg)
Constructeurs
LD Syntaxe Sémantique
D = (SOME R C) x (xRC) {x| y <x,y>RI et y CI }
D = (ALL R C) x(xRC) {x|y <x,y>RI => y CI}
D = (AND C1 C2) C1 C2 Conjonction des concepts C1 et C2
D = (OR C1 C2) C1 C2 Disjonction des concepts C1 et C2
D = (NOT C) C le complément de C
D = (at-least n R C) x1…xn (xiRC), 1i n
{x|y |<x,y>RI et y CI | n }
C1 C2 C1 C2 C1 sont de conditions nécessaires pourC2
![Page 18: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/18.jpg)
Définitions
Commandes Arguments
(define-concept C CN) CN = (ALL R C)| (SOME RC)| (AND C1 C2)| (OR C1 C2)
(instance I C) I est une instance de C
(concept-subsumes C1 C2) Verifie si C1 soubsume C2
(concept-instance C) Retrouve tous les instances duconcept C
(concept-coherence C TBox) Verifie si la T-Box est coerente
(concept-consistent C A-Box) Vérifie si la A-Box est consistante
![Page 19: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/19.jpg)
Exemples de définitions
(define-concept OperatingSystem
(and top (ALL hasFS FileSystem)
(ALL hasCommands Command) (SOME hasType Type)))
(define-concept PC
(and Computer (ALL hasOS (and OperatingSystem
(SOME hasType (OR Windows Linux)))))
(define-concept Net1 (AND Network (SOME hasIde « x11»)) )
(implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin))
(and Hacker (SOME hasAttacked Net1))
)
![Page 20: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/20.jpg)
LD - Inférences
hiérarchie basée sur la subsomption (organisation de la hiérarchie)
mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités
définitions des rôles et des concepts (ALC)hiérarchie des rôles (H)rôles transitives (f+)rôles inverses (I)contraintes numériques (Q)
![Page 21: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/21.jpg)
Applications LD
Applications: recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies
données semi-structurées ou incomplètes raisonnement au niveau d ’instanceexploitation des hyponymies/hyperonymieshypothèse du « monde ouverte »
![Page 22: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/22.jpg)
Données semi-structurés ou incomplètes
(define-concept Root (AND Administrator
(ALL hasAge Age)
(ALL hasAdmin Network)
(SOME hasRights Unlimited)))
(instance y0 (AND Root
(SOME hasAdmin (AND Network (SOME hasType WinNT))) ))
![Page 23: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/23.jpg)
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
![Page 24: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/24.jpg)
Interface syntaxe-sémantique
Besoin de relier les grammaires TAG et l ’ontologie
Ressources nécessaires: lexique spécifique au domaine (mots-
arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres
dérivés et de dérivation
![Page 25: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/25.jpg)
L ’architecture
Extraction du Lexique
Corpus de Référence
Grammaire et Lexique TAG
Analyseur LTAG
Lexique spécifique
au domaine et
grammaire locale TAG
Extraction du lexique sémantique
Interface Syntaxe-
Sémantique
Entrée texte
représentationsconceptuelles
![Page 26: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/26.jpg)
L’ontologie
À partir de la liste des mots pertinents (verbes et noms)
les performances du système dépendent de la granularité de l’ontologie
concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie
![Page 27: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/27.jpg)
Le lexique TAG
Méthode qui utilise grammaire TAG corpus de référence de 80000 mots TreeTagger (catégoriseur lexical)
Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement
![Page 28: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/28.jpg)
Le lexique sémantique
Chaque entrée lexicale contient des descriptions LD des contraintes (ajoutées par la méta-
grammaire)
<sem concept="system" lemma=”system”/><sem concept="(some hasMod main) ” lemma=”main”/><sem concept="connect” lemma=”connect”>
<constr arg0="Substitution" address = "1"/><constr arg1="Substitution" address = "3"/>
</sem>
![Page 29: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/29.jpg)
Interface syntaxe-sémantique (II)
A
B C
Subst Adjonction
Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C)) (constraints A)
Arbre élémentaire
Interface syntaxesémantique
Classifieur LD
![Page 30: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/30.jpg)
Interface syntaxe-sémantique (exemple)
Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B))(implies (some hasSubst A)(some arg0 A))(implies (some hasSubst B)(some arg1 B))
Sem(hacker) = HackerSem(server) = ServerSem(the) = (some hasDefine Defined)
Sem (the hacker)= (and Hacker (some hasDefine Defined)
Sem(the server)= (and Server (some hasDefine Defined))
(concept-satisfiable? (and Connect
(some arg0 (and hacker (some hasDefine Defined)))
(some arg1 (and server (some hasDefine Defined)) )))
Connect_to
hacker server
Substitution Substitution
the the
![Page 31: Interface syntaxe-sémantique pour l ’extraction d ’information](https://reader035.vdocuments.us/reader035/viewer/2022070413/56814c53550346895db96709/html5/thumbnails/31.jpg)
Perspectives
optimisations possibles de l ’analyseur
développement du lexique sémantique
Intégration du système dans plusieurs projets: MIAMM, XMiner