cap 2001 algorithmes pour lapprentissage de règles à partir de données multi-instance yann...
Post on 03-Apr-2015
105 Views
Preview:
TRANSCRIPT
CAP 2001
Algorithmes pour l’apprentissageAlgorithmes pour l’apprentissage
de règles à partir dede règles à partir de
données données multi-instancemulti-instance
Yann Chevaleyre et Jean-Daniel Zucker Université de Paris VI – LIP6 - CNRS
CAP 2001
descriptionatomique
Motivations
ReprésentationAtt/Val
Représentationrelationelle
descriptio
n
globale- peu expressif+ algorithmes performants
+ très expressif- difficilement apprenable,nécessitedes biais forts
ReprésentationReprésentationMIMI
La plupart des algorithmes d ’apprentissage MI utilisent des données La plupart des algorithmes d ’apprentissage MI utilisent des données numériques, et génèrent des hypothèses difficilement interprétablesnumériques, et génèrent des hypothèses difficilement interprétables
Notre but: concevoir des Notre but: concevoir des algorithmes efficacesalgorithmes efficaces, utilisant des données , utilisant des données symboliques et numériquessymboliques et numériques, et générant des hypothèses , et générant des hypothèses compréhensibles comme des compréhensibles comme des listes de décisionlistes de décision
Le choix du langage de représentation des données a un effetLe choix du langage de représentation des données a un effetdéterminant sur l ’apprentissagedéterminant sur l ’apprentissage
CAP 2001Plan
• 1) L ’apprentissage multi-instances
– La représentation multi-instances, sources de données multi-instances,
le problème d ’apprentissage multi-instances
• 2) Extension d ’un algorithme d ’apprentissage propositionnel
– Méthode, extension de l ’algorithme Ripper
• 3) Analyse de l ’extension multi-instances de Ripper
– Les littéraux contradictoires, les littéraux non significatifs, les littéraux
indiscernables
• Conclusion et perspectives
CAP 2001La représentation multi-instances: définition
labi {0,1}est représenté par
Vecteur A/V xi
exemple iest représenté par
Vecteur A/V xi,1
Vecteur A/V xi,2
Vecteur A/V xi,r
+
exemplei +
instances sac
labi {0,1}
Représentation Att/Val classique:
Représentation multi-instance:
CAP 2001Sources de données multi-instances
Les objets complexes (images, molécules, …) sont facilementLes objets complexes (images, molécules, …) sont facilementreprésentables sous forme de sacs d ’instancesreprésentables sous forme de sacs d ’instances
Atom Type Chargec 1 1.18h 3 -1,2h 2 2.78… … …
Les Les Bases de données relationelles Bases de données relationelles peuvent l ’être aussipeuvent l ’être aussi
id name age sex
1 Laura 43 f2 Joe 12 m3 Marry 24 f… … … …
id year balance1 1997 2341 1998 8031 1999 12002 1999 932
… … …
id name age sex year balance1 Laura 43 f 1997 2341 Laura 43 f 1998 8031 Laura 43 f 1999 1200
id name age sex year balance
2 Joe 12 m 1999 932… … … … … …
Des langages de représentations plus complexes (Des langages de représentations plus complexes (faits datalog,faits datalog,clauses prolog,…) clauses prolog,…) peuvent être peuvent être MI-propositionalisés MI-propositionalisés [zucker98],[zucker98],[Alphonse et Rouveirol 2000][Alphonse et Rouveirol 2000]
0,n
1
CAP 2001Le problème d ’apprentissage MI
A partir de B+,B- ensembles desacs positifs (resp. négatifs),
trouver H, hypothèse consistante
Il existe un fonction f, telle que :lab(b)=1 ssi x b, f (x)
Problème d ’apprentissageProblème d ’apprentissagemulti-instances multi-instances sans biaissans biais
biais biais single-tuplesingle-tuple
Problème Problème multi-instancesmulti-instances[Dietterich 97][Dietterich 97]
Trouver une fonction h qui couvreau moins une instancesde chaque sac positifet aucune instance des sacs négatifs
Note: la fonction Note: la fonction hh a pour a pourdomaine l ’espace des instances,domaine l ’espace des instances,et non plus l ’espace des sacs.et non plus l ’espace des sacs.
CAP 2001Extension d ’un algorithme d apprentissage de règles
Représenter Représenter l ’ensemble des sacs l ’ensemble des sacs sous la forme sous la forme d ’un d ’un ensemble de vecteursensemble de vecteurs..
att1 att21.2 c-33 a
att1 att27.9 a
b1+b1+
b2-b2-
ajout de bag-id et du
label à chaque instance
att1 att2 bag-id lab1.2 c 1 +-33 a 1 +
7.9 a 2 -
Mesurer le degré de consistance Mesurer le degré de consistance au sens multi-instances au sens multi-instances de de l ’hypothèse en cours de raffinementl ’hypothèse en cours de raffinement
Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r,Au lieu de mesurer p(r), n(r), nombre de vecteurs couverts par r,on calcule p*(r), n*(r), le nombre de sacs dont r couvre au moinson calcule p*(r), n*(r), le nombre de sacs dont r couvre au moinsune instanceune instance
CAP 2001Extension de l ’algorithme Ripper (Cohen 95)
• RipperRipper (Cohen 95) est un algorithme d ’apprentissage de règles (Cohen 95) est un algorithme d ’apprentissage de règlesrapide, pouvant traiter un grand nombre d ’exemples, et se rapide, pouvant traiter un grand nombre d ’exemples, et se comparant à C4.5comparant à C4.5• Naive-RipperMi Naive-RipperMi est l ’extension de Ripper au cas multi-instancesest l ’extension de Ripper au cas multi-instances
Algorithme Accuracy Type d'hypothèseIterated Discrimin 92.4 APRDiverse Density 88.9 point dans l'espace des instRipper-MI 88 ens. de règles (avg 7 litterals)Tilde 87 arbre de décision d'ordre 1All positive APR 80.4 APRMulti-Inst 76.7 APR
Naive-Ripper-MINaive-Ripper-MI a été testé sur les bases multi-instances a été testé sur les bases multi-instances musk musk (Dietterich 97). Sur (Dietterich 97). Sur musk1 musk1 (5,2 instances par sac en moyenne), il (5,2 instances par sac en moyenne), il obtint de bonnes performances. Sur obtint de bonnes performances. Sur musk2musk2 (65 instances par sac), (65 instances par sac),performances très moyennes (77%). performances très moyennes (77%).
CAP 2001Analyse de l ’algorithme Naive-RipperMI
Objectif: Analyse des pathologies liées au problème multi-instances Objectif: Analyse des pathologies liées au problème multi-instances et à l ’algorithme et à l ’algorithme Naive-Ripper-MINaive-Ripper-MI..
5 sacs5 sacspositifs:positifs:
• le sac des triangles blancs• le sac des carrés blancs...
• le sac des triangles noirs• le sac des carrés noirs...
5 sacs 5 sacs négatifs: négatifs:
Y
X2 4 6 8 10 12
2
4
6
8
Les littéraux contradictoiresLes littéraux contradictoires
Les littéraux non significatifsLes littéraux non significatifs
Les littéraux indiscernablesLes littéraux indiscernables
Moyen: étude de NaiveRipperMi sur une BD simpleMoyen: étude de NaiveRipperMi sur une BD simple
CAP 2001
Tâche d ’apprentissage: découvrir une règle couvrant Tâche d ’apprentissage: découvrir une règle couvrant au moinsune instance de chaque sac positifde chaque sac positif
Concept cible : Concept cible :
Y
X2 4 6 8 10 12
2
4
6
X > 5X > 5 & X < 9& X < 9 & Y > 3& Y > 3
Analyse de l ’algorithme Naive-RipperMI
CAP 2001
Y
X2 4 6 8 10 12
2
4
6
11ièreière étape: Naive-RipperMi génère une première règle étape: Naive-RipperMi génère une première règle
X > 11X > 11 & Y < 5& Y < 5
Analyse de Naive-RipperMi: les littéraux contradictoires
Concept cible : Concept cible : X > 5X > 5 & & X < 9X < 9 & Y > 3& Y > 3
Littérauxcontradictoires
CAP 2001
Y
X2 4 6 8 10 12
2
4
6
2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) par2ième étape: Naive-RipperMi supprime le(s) sac(s) couvert(s) parla règle induite, et induit une nouvelle règle...la règle induite, et induit une nouvelle règle...
Analyse de Naive-RipperMi: les littéraux contradictoires
CAP 2001Analyse de Naive-RipperMi: les littéraux contradictoires
Phénomène Phénomène spécifiquement multi-instances
Contrairement aux autres pathologies mono-instances (overfitting,Contrairement aux autres pathologies mono-instances (overfitting, problèmes de sélection d ’attributs), problèmes de sélection d ’attributs), l ’accroissement du nombre d ’exemples ne résout rien.
On ne peut pas « rattraper » une règle comportant un littéralOn ne peut pas « rattraper » une règle comportant un littéral contradictoire par raffinage successifs contradictoire par raffinage successifs
Le principe de l ’algorithme par couverture élimine réduit les chancesLe principe de l ’algorithme par couverture élimine réduit les chances de trouver le concept cible de trouver le concept cible
Si le littéral Si le littéral ll est contradictoire, alors est contradictoire, alors ll ne l ’est pas. ne l ’est pas.
Il suffit donc, lorsqu ’on choisit le littéral Il suffit donc, lorsqu ’on choisit le littéral l l d ’examinerd ’examiner
en même temps en même temps ll => => partition de l ’espace des instances
CAP 2001Analyse de Naive-RipperMi: les littéraux contradictoires
2 4 12
Y
X6 8 10
2
4
6
Construction d ’une Construction d ’une partition de l ’espace des instancesde l ’espace des instances
On extrait la meilleure règle : X < 11 & Y < 6 & X > 5 & Y > 3On extrait la meilleure règle : X < 11 & Y < 6 & X > 5 & Y > 3
CAP 2001Analyse de Naive-RipperMi: les littéraux non significatifs
En apprentissage multi-instances, les littéraux En apprentissage multi-instances, les littéraux non significatifs peuvent se trouver n ’importe où dans la règle, et peuvent se trouver n ’importe où dans la règle, et non plus seulement à la finnon plus seulement à la fin
Utiliser un élagage Utiliser un élagage global
Y
X2 4 6 8 10 12
2
4
6
Y < 6 & Y > 3 & X > 5 & X < 9Y < 6 & Y > 3 & X > 5 & X < 9
CAP 2001
X
Y
2 4 6 8 10 12
2
4
6
Analyse de Naive-RipperMi: les littéraux indiscernables
Quand le nombre d ’instances par sac augmente, les littéraux Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un
CAP 2001
X
Y
2 4 6 8 10 12
2
4
6
Quand le nombre d ’instances par sac augmente, les littéraux Quand le nombre d ’instances par sac augmente, les littéraux initiaux couvrent tous les sacs. initiaux couvrent tous les sacs. On ne dispose pas d ’assez d ’information pour en choisir un
Analyse de Naive-RipperMi: les littéraux indiscernables
CAP 2001Analyse de Naive-RipperMi: les littéraux indiscernables
Solution : Solution : Prendre en compte le nombre d ’instances couverts à l ’aide d ’un modèle sur les données
Calculer Pr(instance couverte Calculer Pr(instance couverte concept cible) concept cible)
X
Y
2 4 6 8 10 12
2
4
6
Concept cible
Y > 5
CAP 2001Analyse de Naive-RipperMi: les littéraux indiscernables
Modèle choisit: Un sac b+ ayant r instances est composé de:Modèle choisit: Un sac b+ ayant r instances est composé de:
1 instance 1 instance concept cible concept cibler-1 instances tirées aléatoirement d ’une distribution r-1 instances tirées aléatoirement d ’une distribution DD
Calcul de Pr(instance couverte Calcul de Pr(instance couverte concept cible) concept cible)
CAP 2001
Ce phénomène est fréquent lorsque ne nombre d ’instances Ce phénomène est fréquent lorsque ne nombre d ’instances par sac est grand par sac est grand
Construire une Construire une partition de l ’espace des instancesde l ’espace des instances
CAP 2001
Nombre d ’instances par sac
Tau
x d
’err
eur
(%)
top related