la classification
DESCRIPTION
La Classification. [email protected]. Fouille de données (Data mining). « Extraction de connaissances implicites non connues à l’avance et potentiellement utiles dans de gros volumes de données » Fayyad et al. 1996. II y en a beaucoup trop !. Données. Données. Données. Données. - PowerPoint PPT PresentationTRANSCRIPT
Ansaf SALLEB - Décembre 2004 2
Fouille de données (Data mining)
« Extraction de connaissances implicites
non connues à l’avance et
potentiellement utiles dans de gros
volumes de données »
Fayyad et al. 1996
Ansaf SALLEB - Décembre 2004 3
Fouille de données: pourquoi ?
DonnéesDonnées
Données Données
Données
Données
II y en a beaucoup
trop !
Ansaf SALLEB - Décembre 2004 4
Fouille de données: approches
STAT
BD
RN
VISU
ASA
AD
Fouillede
Données
Ansaf SALLEB - Décembre 2004 5
Fouille de données : types de données
Tables (BD relationnelles)
Texte
Multimédia
Spatiales
Temporelles (time series)
Web
…
Ansaf SALLEB - Décembre 2004 6
Fouille de données : tâches
Description
Associations
Classification
Détection d’anomalies
…
Ansaf SALLEB - Décembre 2004 7
La classification : un exemple
Problème :
Un client demande à son banquier un crédit
Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client !
Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.
Ansaf SALLEB - Décembre 2004 8
Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable)
PrédireUtiliser le modèle pour classer le client
La classification : un exemple
Ansaf SALLEB - Décembre 2004 9
La classification
Supervisée : on connaît les classes
Grp1
Grp2
Grp3
Cl1 Cl2 Cl3 Cl2 Cl1 Cl3
Non supervisée : on ne connaît pas les classes
Ansaf SALLEB - Décembre 2004 10
La classification
Supervisée : on connaît les classes
Bayésienne
Réseaux neuronaux
Arbres de décision (Apprentissage)
…
Non supervisée : on ne connaît pas les classes
K-moyennes, nuées dynamiques, CLARANS,...
Classification Ascendante Hiérarchique (Analyse des données)
Ansaf SALLEB - Décembre 2004 11
Classification: arbre de décision
Entrée:BD = Exemples classés décrits par des attributs
Sortie:Arbre classifiant les exemples en classes
Approche:Organiser les exemples en arbre, les feuilles sont
lesclasses
Méthodes: Cart, C4.5 ...
Ansaf SALLEB - Décembre 2004 12
Exemple de données météorologiques
Attribut de
classes
Attributs prédictif
s
14 Exemple
s
Temps Température Humidité Vent Tennis ?
Ensoleillé Chaude Élevée FAUX Non
Ensoleillé Chaude Élevée VRAI Non
Couvert Chaude Élevée FAUX Oui
Pluvieux Modérée Élevée FAUX Oui
Pluvieux Fraîche Normale FAUX Oui
Pluvieux Fraîche Normale VRAI Non
Couvert Fraîche Normale VRAI Oui
Ensoleillé Modérée Élevée FAUX Non
Ensoleillé Fraîche Normale FAUX Oui
Pluvieux Modérée Normale FAUX Oui
Ensoleillé Modérée Normale VRAI Oui
Ansaf SALLEB - Décembre 2004 13
Exemple de données météorologiques
Temps{ensoleillé, couvert, pluvieux}3Température {chaud, modéré, frais}3Humidité {élevée, normale}2Vent {VRAI, FAUX} 2
nombre d’exemples possibles: 3*3*2*2 = 36
14 exemples sont présents dans la BD
Ansaf SALLEB - Décembre 2004 14
Arbre de décision
Nouvelle journée
Temps Température Humidité Vent Tennis ?Ensoleillé Frais Élevée VRAI ?
Ansaf SALLEB - Décembre 2004 15
Deux étapes:
1. Construction du modèle sur les exemples
d’apprentissage (training set)
2. Évaluation du modèle sur des exemples test(test set)
Arbre de décision
Ansaf SALLEB - Décembre 2004 16
1. Au départ, la racine contient tous les exemples
2. Si tous le exemples sont de même classe, c’est
une feuille sinon trouver le meilleur attribut
3. Diviser les exemples
4. Recommencer pour chacun des nouveaux nœuds
Construction du modèle
Ansaf SALLEB - Décembre 2004 17
un nœud-> une quantité d’information qui représente le degré de mélange des classes
quantité d’information -> mélange
quantité d’information = MAX si les exemples sont équitablement répartis
quantité d’information = MIN si le nœud est pur (que des exemples de même classe)
Construction du modèle
Ansaf SALLEB - Décembre 2004 18
Construction du modèle
Temps
oui(9), non(5)
oui(2) non(3)
oui(4)
oui(3) non(2)
Info(9,5)
5/14 * Info(2,3) 4/14 * Info(4,0) 5/14 * Info(3,2)
Ensoleillé Couvert Pluvieux
Ansaf SALLEB - Décembre 2004 19
Construction du modèle
4/14 * Info(3,1)
Température
oui(9), non(5)
oui(2) non(2)
oui(4) non(2)
oui(3) non(1)
Info(9,5)
4/14 * Info(2,2) 6/14 * Info(4,2)
Chaude Modérée Fraîche
Ansaf SALLEB - Décembre 2004 20
Construction du modèle
Humidité
oui(9), non(5)
oui(3) non(4)
oui(6) non(1)
Info(9,5)
7/14 * Info(3,4) 7/14 * Info(6,1)
Élevée Normale
Ansaf SALLEB - Décembre 2004 21
Construction du modèle
vent
oui(9), non(5)
oui(6) non(2)
oui(3) non(3)
Info(9,5)
8/14 * Info(6,2) 6/14 * Info(3,3)
FAUX VRAI
Ansaf SALLEB - Décembre 2004 22
Gain d’information(outlook) = info(9,5)-5/14 info(2,3)- 4/14 info(4,0)- 5/14 info(3,2)
Construction du modèle
Attribut Gain d'informationTemps 0,247Températue 0,029Humidité 0,152Vent 0,048
Ansaf SALLEB - Décembre 2004 23
Fonction info qui vérifie ces propriétés, entropie,
gini,...
Fonction Entropie
info(m1,m2) = Entropie(p1,p2)
= -p1log2(p1)-p2log2(p2)
où p1=m1/(m1+m2) p2=m2/(m1+m2)
pi proportion d’exemples dans la classe Ci
Construction du modèle
Ansaf SALLEB - Décembre 2004 24
processus récursif, le raisonnement fait à
la racine est analogue à tout autre
sommet
critères d’arrêt:
contrainte sur nombre d’exemples dans un nœud;
on fixe un seuil d’entropie en dessous duquel on
refuse d’éclater un sommet;
Arrivée à un nœud pur.
Construction du modèle
Ansaf SALLEB - Décembre 2004 25
Construction du modèle
Temps
Info(2,3)Ensoleillé ...
...
Température
Chaude FraîcheModérée
non non
Oui non
oui
2/5 * Info(0,2) 2/5 * Info(1,1) 1/5 * Info(1,0)
Ansaf SALLEB - Décembre 2004 26
Construction du modèle
Temps
Info(2,3)Ensoleillé ...
...
humidité
Élevée Normale
non(3) oui(2)
3/5 * Info(0,3) 2/5 * Info(2,0)
Ansaf SALLEB - Décembre 2004 27
Arbre de décision
Ansaf SALLEB - Décembre 2004 28
Attributs numériques sont discrétisés
Discrétisation?Ordonner les k valeurs de l’attribut numérique X j
Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre
Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles
on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.
Construction du modèle: attributs numériques
Ansaf SALLEB - Décembre 2004 29
Construction du modèle: attributs numériques
Temps Température Humidité Vent Tennis ?
Ensoleillé 85 85 FAUX Non
Ensoleillé 80 90 VRAI Non
Couvert 83 86 FAUX Oui
Pluvieux 70 96 FAUX Oui
Pluvieux 68 80 FAUX Oui
Pluvieux 65 70 VRAI Non
Couvert 64 65 VRAI Oui
Ensoleillé 72 95 FAUX Non
Ensoleillé 69 70 FAUX Oui
Pluvieux 75 80 FAUX Oui
Ensoleillé 75 70 VRAI Oui
Ansaf SALLEB - Décembre 2004 30
Temps
Info(2,3)
Ensoleillé ......
Humidité
? ?
Info(9,5)
Construction du modèle: attributs numériques
Ansaf SALLEB - Décembre 2004 31
77,5 87,5 92,5
• Attribut à discrétiser: Humidité• nœud avec Info(2,3)
70 85 90 95
75
oui
ouinon nonnon
Construction du modèle: attributs numériques
Humidité
Ansaf SALLEB - Décembre 2004 32
Temps
Info(2,3)Ensoleillé ...
...
Humidité
>75 <=75
non(3) oui(2)
3/5 * Info(0,3) 2/5 * Info(2,0)
Construction du modèle: attributs numériques
Ansaf SALLEB - Décembre 2004 33
Évaluation du modèle
Partitionner la BD en deux ensembles:
un ensemble d’apprentissage training set (2/3 de BD)
un ensemble test test set (1/3)
Validation croisée cross validation:
diviser BD en K parties
apprentissage et test en k étapes
A chaque étape: utiliser k-1 parties pour apprentissage et
1 partie pour le test
précision estimée par le nombre total de classifications
correctes
Ansaf SALLEB - Décembre 2004 34
Évaluation du modèle
10 instances correctement classées 71,42%
4 instances incorrectement classées 28,58%
classe prédite
oui non
réel
le ou
i
7 2C
lass
e
no
n2 3
matrice de confusion
Ansaf SALLEB - Décembre 2004 35
Arbres de décision : conclusion
+ Facilement interprétables
+ Construction rapide des arbres
+ Pouvoir prédictif comparable aux autres méthodes
- Choix d'un attribut n'est jamais remis en question
- Un partitionnement dépend tjrs du précédent
- Univarié: ne s’intéresse qu’à une seule variable à un nœud
Ansaf SALLEB - Décembre 2004 36
Analyse des données : un petit mot
1 2 ... ...12
Jj Pp
.
.
.Ii...Nn
P variables
N individus
Xij
Nuage de n points dans un espace de
dimension p
Ansaf SALLEB - Décembre 2004 37
Analyse des données : un petit mot
Visualisation dans le meilleur espace réduit
Méthodes factorielles (ACP, AFC, AFCM)
Regroupement dans tout l'espace
Méthodes de classification (CAH, Aggrégation autour
des centres mobiles,... )
Inspiré de Lebart et al.
Ansaf SALLEB - Décembre 2004 38
On ne connaît pas les classes des individus
Une méthode simple et efficace sur de petits volumes de données
Se base sur une distance entre individus (similarité, dissimilarité)
Agrége progressivement les individus deux à deux selon leur ressemblance
Produit un Dendrogramme (arbre hiérarchique)
Classification Ascendante Hiérarchique
Ansaf SALLEB - Décembre 2004 39
Classification Ascendante Hiérarchique
Agglomération progressive des 5 points (Lebart et al.)
Étape 1 Étape 2 Étape 3 Étape 4 Étape 5
Ansaf SALLEB - Décembre 2004 40
Exemple d'Application à SACADEAUville annee somme_pluies somme_SI>2 somme_temp nb_pics>10
Quimper93 1993 239,5 58,5 1557,2 5Quimper94 1994 64 11 1568,6 1Quimper95 1995 135 37,5 1372,3 5Quimper96 1996 200 36,5 1522,8 7Quimper97 1997 232,5 41,5 1586,6 6Quimper98 1998 294 59 1566,6 9Quimper99 1999 245 45 1689,7 8Quimper00 2000 325,5 71,5 1579,6 11Quimper01 2001 219,5 33 1583,4 8Quimper02 2002 334,5 78 1501,2 10Naizin94 1994 235,5 81,5 1569,7 10Naizin95 1995 126,5 37 1593,1 4Naizin96 1996 110 19 1498,3 3Naizin97 1997 132,5 37 1539,7 2Naizin98 1998 264,5 61 1516,7 8Naizin99 1999 150 28 1613 2Naizin00 2000 258 43,5 1532,3 7Naizin01 2001 189 31 1545,6 4Naizin02 2002 202 35,5 1495,2 7leRheu94 1994 209,5 64 1674,1 5leRheu95 1995 125 16,5 1687,4 2leRheu96 1996 118 19 1573,7 3leRheu97 1997 200 41,5 1614,2 4leRheu98 1998 214,5 29 1613,8 4leRheu99 1999 163 27 1742 3leRheu00 2000 251 68 1681,8 6leRheu01 2001 194 33,5 1642,3 5leRheu02 2002 138,7 22,3 1599,1 2
Ansaf SALLEB - Décembre 2004 41
Ce qu'on voudrait faire...
1)Regrouper les climats par groupes CAH
Outil XLStat
2)Trouver des règles de classification des climats selon les groupes trouvés C4.5
Outil Weka
Ansaf SALLEB - Décembre 2004 42
1) CAH (SI_2,Nb_Pics10)
0 5 10
15
20
25
30
Dissimilarité
Dendrogramme
leRheu02Naizin99
leRheu99leRheu96Naizin96
leRheu95Quimper94
leRheu01Quimper95Quimper97
leRheu98Naizin01
leRheu97Naizin95Naizin97Naizin02
Quimper96Quimper01
Naizin00Quimper99
leRheu00leRheu94
Quimper93Naizin98
Quimper98Naizin94
Quimper02Quimper00
G5
G4
G3
G2
G1
Ansaf SALLEB - Décembre 2004 43
1) CAH (SI_2,Nb_Pics10)
ville annee somme_pluies somme_SI>2 somme_temp nb_pics>10 GRPQuimper93 1993 239,5 58,5 1557,2 5 4Quimper94 1994 64 11 1568,6 1 1Quimper95 1995 135 37,5 1372,3 5 2Quimper96 1996 200 36,5 1522,8 7 3Quimper97 1997 232,5 41,5 1586,6 6 2Quimper98 1998 294 59 1566,6 9 5Quimper99 1999 245 45 1689,7 8 3Quimper00 2000 325,5 71,5 1579,6 11 5Quimper01 2001 219,5 33 1583,4 8 3Quimper02 2002 334,5 78 1501,2 10 5Naizin94 1994 235,5 81,5 1569,7 10 5Naizin95 1995 126,5 37 1593,1 4 2Naizin96 1996 110 19 1498,3 3 1Naizin97 1997 132,5 37 1539,7 2 2Naizin98 1998 264,5 61 1516,7 8 5Naizin99 1999 150 28 1613 2 1Naizin00 2000 258 43,5 1532,3 7 3Naizin01 2001 189 31 1545,6 4 2Naizin02 2002 202 35,5 1495,2 7 3leRheu94 1994 209,5 64 1674,1 5 4leRheu95 1995 125 16,5 1687,4 2 1leRheu96 1996 118 19 1573,7 3 1leRheu97 1997 200 41,5 1614,2 4 2leRheu98 1998 214,5 29 1613,8 4 2leRheu99 1999 163 27 1742 3 1leRheu00 2000 251 68 1681,8 6 4leRheu01 2001 194 33,5 1642,3 5 2leRheu02 2002 138,7 22,3 1599,1 2 1
Ansaf SALLEB - Décembre 2004 44
2) Arbre de décision (toutes var)
Somme_Si_2
C4 (3)
>45<= 45
Nb_Pics_10
>6<= 6 >6<= 6
C5 (5)C3 (5)Somme_Si_2
>28<= 28
C1 (7) C2 (8)
Nb_Pics_10
Ansaf SALLEB - Décembre 2004 45
Si Somme_SI_2 <= 45:
Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6)
Si Somme_SI_2 > 28: 2 (7)Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)
2) Arbre de décision -> règles
Ansaf SALLEB - Décembre 2004 46
2) Arbre de décision (toutes var)
Somme_Si_2
C3 (3)
>45<= 45
>3<= 3 >6<= 6
C5 (5)C1 (8)
>5<= 5
C2 (6) C4 (6)
Nb_Pics_10 Nb_Pics_10
Nb_Pics_10
1) CAH (SI_2,Nb_Pics10,Cumul_pluie)
Ansaf SALLEB - Décembre 2004 47
2) Arbre de décision
<= 28
C1 (7)
Somme_Si_2
C4 (3)
>45<= 45
Nb_Pics_10
>6<= 6 >6<= 6
C5 (5)C3 (5)Somme_Si_2
>28
C2 (8)
Nb_Pics_10
Somme_Si_2
C3 (3)
>45<= 45
Nb_Pics_10
>3<= 3 >6<= 6
C5 (5)C1 (8)
Nb_Pics_10
Nb_Pics_10
>5<= 5
C2 (6) C4 (6)
Arbre après CAH sur(SI_2,Nb_Pics10)
Arbre après CAH sur(SI_2,Nb_Pics10,Cumul_pluie)
Ansaf SALLEB - Décembre 2004 48
Conclusion et Perspectives
Variables temporelles sur des périodes... lesquelles ?
Séries temporelles... sujet de recherche
Intérêt d'une classification de climats, problème du volume de données
Ansaf SALLEB - Décembre 2004 49
Bibliographie
(1) J. Han et M. Kamber « Data Mining: Concepts and Techniques » Morgan Kaufmann
(2) L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle » Dunod
(3) A. Cornuéjols et L. Miclet « Apprentissage artificiel; Concepts et Algorithmes » Eyrolles
(4) J.R. Quinlan « Induction of Decision Trees » Machine Learning 1986 - Kluwer Academic Publisher, pages 81-106
(5) XLStat Analyse de données et statistique avec MS Excel - Addinsoft http://www.xlstat.com/indexfr.html
(6) Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License) http://www.cs.waikato.ac.nz/ml/weka/