Interface syntaxe-sémantique pour l ’extraction d ’information
Amalia TodirascuEquipe Langue et DialogueLORIA
Plan Contexte
problématique des systèmes d ’extraction d ’information
objectifs
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de description
Interface syntaxe-sémantique Perspectives
Systèmes d ’extraction d ’information
But: identification des informations pertinentes
pour un domaine structurer ces informations
applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain
Systèmes d ’extraction d ’information
Documents
valider
Analyse syntaxique locale
Lexique
conceptscandidats
Ontologie
Extraction d ’information
Patronsmorpho-
syntaxiques
Ressources linguistiques
Identification des noms
Heuristiques
“the hacker had the root password”
(and password (some hasP root))hacker
Objectifs du projet Vulcain
But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes
Augmenter la portabilité : réutilisation des ressources linguistiques
(grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du
domaine (inférences en logiques de description)
Augmenter la précision: ressources linguistiques validés par linguistes
(grammaires TAG)
concepts validés par l ’ontologie
Un exemple
« Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password
protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a
lilo prompt for a password ?»Corpus:
erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de
places, personnes, organisations, fonctions)
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
Syntaxe (I)
techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-
syntaxiques automates à états finis statistiques (collocations)
difficile à construire une représentation sémantique structure syntaxique
primitive
analyse syntaxique classique structure syntaxique
et structure de dépendances
besoin de ressources linguistiques adaptées pour les textes spécialisés
mal adaptée pour des textes non-spécialisés: besoin de ressources
de grande taille, complètes
Syntaxe (II)
Grammaires TAGs: localité arbres dérivés et de dérivation grammaires TAGs disponibles
combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents
Syntaxe (III)
« the root password was used by an unknown user»
N
A N*
root
N
A N*
unknown
N
user
N
password
Syntaxe (IV)
Modification de l’analyseur Lopez: modularité ressources en format standard (TAGML -
XML) optimisations
adapter les ressources pour les besoins lexique spécifique grammaire locale
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
Ontologies
Définition: une description simplifiée des connaissances du domaine
portabilité réduitedéveloppement des méthodes
d ’extraction d ’ontologies à partir des textes: identification des termes (instances des
concepts) relation termes-concepts relations entre termes
Formalismes de représentation d ’ontologies
structurer les connaissances (hiérarchie des concepts)
manipuler des connaissances incomplètes ou incorrectes
mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification
éviter les redondances
Logiques de description (I)
Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet
organisation hiérarchique
syntaxe et sémantique bien définies
Logiques de description (II)
organisation hiérarchique: conceptuel (T-Box)
conceptsrôles
asertionnel (A-Box)instances
procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC
Constructeurs
LD Syntaxe Sémantique
D = (SOME R C) x (xRC) {x| y <x,y>RI et y CI }
D = (ALL R C) x(xRC) {x|y <x,y>RI => y CI}
D = (AND C1 C2) C1 C2 Conjonction des concepts C1 et C2
D = (OR C1 C2) C1 C2 Disjonction des concepts C1 et C2
D = (NOT C) C le complément de C
D = (at-least n R C) x1…xn (xiRC), 1i n
{x|y |<x,y>RI et y CI | n }
C1 C2 C1 C2 C1 sont de conditions nécessaires pourC2
Définitions
Commandes Arguments
(define-concept C CN) CN = (ALL R C)| (SOME RC)| (AND C1 C2)| (OR C1 C2)
(instance I C) I est une instance de C
(concept-subsumes C1 C2) Verifie si C1 soubsume C2
(concept-instance C) Retrouve tous les instances duconcept C
(concept-coherence C TBox) Verifie si la T-Box est coerente
(concept-consistent C A-Box) Vérifie si la A-Box est consistante
Exemples de définitions
(define-concept OperatingSystem
(and top (ALL hasFS FileSystem)
(ALL hasCommands Command) (SOME hasType Type)))
(define-concept PC
(and Computer (ALL hasOS (and OperatingSystem
(SOME hasType (OR Windows Linux)))))
(define-concept Net1 (AND Network (SOME hasIde « x11»)) )
(implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin))
(and Hacker (SOME hasAttacked Net1))
)
LD - Inférences
hiérarchie basée sur la subsomption (organisation de la hiérarchie)
mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités
définitions des rôles et des concepts (ALC)hiérarchie des rôles (H)rôles transitives (f+)rôles inverses (I)contraintes numériques (Q)
Applications LD
Applications: recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies
données semi-structurées ou incomplètes raisonnement au niveau d ’instanceexploitation des hyponymies/hyperonymieshypothèse du « monde ouverte »
Données semi-structurés ou incomplètes
(define-concept Root (AND Administrator
(ALL hasAge Age)
(ALL hasAdmin Network)
(SOME hasRights Unlimited)))
(instance y0 (AND Root
(SOME hasAdmin (AND Network (SOME hasType WinNT))) ))
Plan
Contexte problématique systèmes d ’extraction d ’information
Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG
Ontologies formalismes de représentation:logiques de
description
Interface syntaxe-sémantique Perspectives
Interface syntaxe-sémantique
Besoin de relier les grammaires TAG et l ’ontologie
Ressources nécessaires: lexique spécifique au domaine (mots-
arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres
dérivés et de dérivation
L ’architecture
Extraction du Lexique
Corpus de Référence
Grammaire et Lexique TAG
Analyseur LTAG
Lexique spécifique
au domaine et
grammaire locale TAG
Extraction du lexique sémantique
Interface Syntaxe-
Sémantique
Entrée texte
représentationsconceptuelles
L’ontologie
À partir de la liste des mots pertinents (verbes et noms)
les performances du système dépendent de la granularité de l’ontologie
concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie
Le lexique TAG
Méthode qui utilise grammaire TAG corpus de référence de 80000 mots TreeTagger (catégoriseur lexical)
Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement
Le lexique sémantique
Chaque entrée lexicale contient des descriptions LD des contraintes (ajoutées par la méta-
grammaire)
<sem concept="system" lemma=”system”/><sem concept="(some hasMod main) ” lemma=”main”/><sem concept="connect” lemma=”connect”>
<constr arg0="Substitution" address = "1"/><constr arg1="Substitution" address = "3"/>
</sem>
Interface syntaxe-sémantique (II)
A
B C
Subst Adjonction
Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C)) (constraints A)
Arbre élémentaire
Interface syntaxesémantique
Classifieur LD
Interface syntaxe-sémantique (exemple)
Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B))(implies (some hasSubst A)(some arg0 A))(implies (some hasSubst B)(some arg1 B))
Sem(hacker) = HackerSem(server) = ServerSem(the) = (some hasDefine Defined)
Sem (the hacker)= (and Hacker (some hasDefine Defined)
Sem(the server)= (and Server (some hasDefine Defined))
(concept-satisfiable? (and Connect
(some arg0 (and hacker (some hasDefine Defined)))
(some arg1 (and server (some hasDefine Defined)) )))
Connect_to
hacker server
Substitution Substitution
the the
Perspectives
optimisations possibles de l ’analyseur
développement du lexique sémantique
Intégration du système dans plusieurs projets: MIAMM, XMiner