classification et bd m1:mass-imm · francois.kauff[email protected] classification et bd...
TRANSCRIPT
Classification et BD M1:MASS-IMM
30 janvier 2008
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 1 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Premiere partie I
Classification non supervisee
IntroductionStructures des donnees
TablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de VoronoıAlgorithme des nuees dynamiques
DefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 2 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 3 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Objectifs
Les missions :
I Gerer l’information, bases de donnees
I Analyser, modeliser les liens, classification, regression, datamining
I Aider a la decision, predire les risques associe a unedecision statistique
I Communiquer, simplifier, exposer les resultats
Les secteurs concernes :
I distribution
I telecommunications
I banque
I assurance
I etudes medicales et pharmaceutiques
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 4 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Les metiers
I responsable logistique du traitement et de l’analyse desetudes
I charge d’etudes junior : prise en charge de ladocumentation, codage des questionnaires, traitementstatistiques simples.
I charge d’etudes senior, assistant du charge d’etude, priseen main d’une etude de marche.
I analyste statisticien, etudes quantitatives, aide a ladecision, expert en statistiques, il supervise l’analyse desdonnees.
I chef de projet, supervise le groupe et les projets.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 5 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Les mots cles
I marketing
I etudes quantitatives
I statistique, aide a la decision
I systemes d’information de l’entreprise
I reporting
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 6 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Exemples
I analyse de resultats d’enquetes (Demarche Marketing,Opininion Way)
I identification des prospects (banque, telephonie mobile, ...)
I identification des clients susceptibles de partir a laconcurrence (Bouygues)
I determination des lieux de ventes (distributeurs de billets)
I politique tarifaire (TODD)
I analyser, identifier les risques (degats des eaux MAAF)
I analyser des donnees textuelles, reponse a des questionsouvertes.
I ...
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 7 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Programme
Classification et bases de donnees, fouille de donnees, (datamining).
I Classification non supervisee (clustering)
I Analyse discriminante, regression logistique,...(classification)
I Bases de donnees, Standard Query Language SQL (databases)
I Arbre de decisions (decision trees)
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 8 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Les outils
I vous, vos connaissances, vos neurones
I les outils de gestions de l’information SQL, PostGreSQL,SAS, enseigne en M2-MASS Silog, Access, d’autresOracle, SAP.
I les outils d’analyses SAS, SAS Entreprise Guide, SASEntreprise Miner, R (SPLUS), en M2-MASS, Sphynx,Alceste et d’autres SPAD, SPSS.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 9 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Bibliographie I
Alan Agresti.An introduction to categorical data Analysis.Wiley Series in probability and statistics, 2007.
Max Bramer.Principles of Data mining.Spinger Verlag, 2007.
Michael Falk, Frank Marohn, and Bernward Tewes.Foundations of statistical Analyses and Applications withSAS.Birkhauser Verlag, 2002.
Jiawei Han and Micheline Kamber.Data Mining : concepts and techniques.Morgan Kaufmann publishers, 2004.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 10 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Bibliographie II
Naresh Malhotra.Etudes Marketing avec SPSS.Pearson Eduction, 2004.
Stephane Tuffery.Data Mining et statistique decisionnelle.Editions TECHNIP, 2005.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 11 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 12 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 13 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Les tablesPour un individu 1 ≤ i ≤ n, on observe
Xi ∈ E = E1 × E2 × · · · × Ep.
Pour 1 ≤ j ≤ p l’ensemble Ej peut etre
I R l’addition et la multiplication usuelle ont un sens pourles valeurs observees, les valeurs sont dites quantitatives.
I un ensemble fini, les valeurs sont dites qualitatives.
Les donnees sont rangees dans une table ou relation X
X ∈ (E1 × E2 × · · · × En)n = En
I n lignes appelees individus ou observations ou tuples ouenregistrements ou records
I p colonnes appelees variables ou attributs ou champs.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 14 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Exemple quantitatif
Si E = E1 × E2 × · · · × Ep = R× · · · × R = Rp, alorsX ∈ En = (Rp)n ∼Mn,p(R), X est une matrice a coefficientsreels a n lignes et p colonnes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 15 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Exemple mixte
couleur cru region prix quantite
rose sancerre loire 4 0rouge volnay Bourgogne 9 5rouge mercurey Bourgogne 8.5 0blanc gewurtztraminer alsace 4 3
Pour la variable
I couleur , on peut choisir comme ensemble de valeursE1 = {′rose ′,′ rouge ′,′ blanc ′} mais aussi l’ensemble deschaines de caracteres
I prix on peut choisir comme ensemble de valeurs E4 = RI region on peut choisir comme ensemble de valeurs E5 = N
ou E5 = RX est ici une table a 4 lignes et 5 colonnes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 16 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Structure informatique
La notion de table generalise la notion de matrice ou le type dedonnees est le meme pour toutes les donnees : on parle dematrice a coefficients reels, de matrice a coefficients entiers, acoefficients binaires.
I Liste de vecteurs
I dans SAS c’est une table SAS
I dans R c’est une data.frame
I dans un gestionnaire de bases de donnees c’est aussi unetable.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 17 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 18 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Dissimilarites
Soit E un ensemble, on appelle dissimilarite sur E
d :
{E × E → R+
(x , y) 7−→ d(x , y)
et qui verifie
I symetrie ∀(x , y) ∈ E 2, d(x , y) = d(y , x)
I ∀x ∈ E , d(x , x) = 0
Si d est une distance sur un ensemble E alors c’est aussi unedissimilarite, la distance verifie en plus la proriete dited’inegalite triangulaire. Soit (Xi )1≤i≤n ∈ En et d unedissimilarite de E , alors D = (d(i , j))1≤i ,j≤n est appeleematrice de dissimilarite entre individus. Plus les individus x et ysont eloignes plus la dissimilarite entre x et y doit etre grande.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 19 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Variables quantitatives
On suppose que l’on a trois mesuresx1 = (0, 0), x2 = (1, 0), x3 = (5, 5), alors la matrice desdistances pour la norme d(x , y) = ‖x − y‖1 est unedissimilarite : 0 1 10
1 0 910 9 0
La matrice des carres des distances euclidienned(x , y) = ‖x − y‖2
2 est dissimilarite : 0 1 501 0 4150 41 0
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 20 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Normalisation variables numeriques
Il est preferable de renormaliser les variables avant de calculerune matrice de dissimilarite entre individus. Soit sxi la varianceempirique de la variable xi posonsD = diag(1/sx1 , 1/sx1 , · · · , 1/sxn), alors on peut prendrecomme distance
d(x , y) = (x − y)tD(x − y) =< x − y , x − y >D
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 21 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Tableau de contingence
Soit (xi ,j)1≤i≤n,1≤j≤p un tableau de contingence, et I samatrice de liaison alors la distance entre deux lignes i1 et i2 dutableau de contingence peut etre definie grace a la distance duχ2 :
d2(i1, i2) =
j=p∑j=1
1x.,j
x.,.
(xi1,j
xi1,.−
xi2,j
xi2,.
)2
= ‖Ii1 − Ii2‖2diag(f.,j )
=
j=p∑j=1
f.,j
(fi1,j
f.,j fi ,.−
fi2,jf.,j fi ,.
)2
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 22 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Donnees binaires
On suppose que l’espace des observations est E = {0, 1}p
(toutes las variables sont binaires), soient x et y deux individusde E , soit
1. a1 le nombre de composantes qui verifie xi = yi = 1
2. a2 le nombre de composantes qui verifie xi = 0, yi = 1
3. a3 le nombre de composantes qui verifie xi = 1, yi = 0
4. a4 le nombre de composantes qui verifie xi = 0, yi = 0
On construit des indices de dissimilarites entre individus par
d(x , y) =λ(a2 + a3)
a1 + δa4 + λ(a2 + a3)
Pour δ = 0, λ = 1, on parle d’indice de Jaccard, c’est laproportion d’indices qui different.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 23 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Donnees qualitatives
Si l’ensemble E = E1× · · · × Ep des observations est constituede variables qualitatives, alors la dissimilarite entre deuxindividus x et y est definit par la proportion de differencesentre les deux individus :
d(x , y) =p −m
p
avec
I p est le nombre de variables
I m est le nombre de composantes identiques.
On peut prendre aussi une distance euclidienne calculee a partirdes coordonnees des individus dans une base factorielle d’uneanalyse en composantes multiples.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 24 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Qualitatives ordonnees
Soit y ∈Mn,1(m1 ≤ m2 ≤ · · · ≤ mq)} une variable qualitativeordonnee , soit rangy ∈ [1, q] le rang de y , on appelle rangnormalise de y
zy =rangy − 1
q − 1∈ [0, 1]
On peut alors comparer ces valeurs numeriques entre elles parl’intermediaires de distances euclidiennes. Si on a une tableX = Table(Y = [TB,P,B,TB]) on aE1 = {m1 = P ≤ m2 = AB ≤ m3 = B ≤ m4 = TB} AlorsrangY = [4, 1, 3, 4] et
zY = [1, 0, 2/3, 1]
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 25 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Cas mixte
On veut construire une dissimilarite entre individus quand lesvariables ne sont pas de type identique. On suppose que latable X est la reunion des tables (Zl)1≤l≤L :
X = [Z1,Z2, · · · ,Zl ]
On suppose que pour chaque sous-table Zl on a construit unedissimilarite dl , alors on peut construire une dissimilarite entredeux indivdius i et j de X en faisant une moyenne ponderee desdissimilarites
d(i , j) =
∑l=Ll=1 αldl(j , j)∑l=L
l=1 αl
avec α ∈ (R+)L
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 26 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 27 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 28 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classification non supervisee
Soit I = {1, · · · , n} un ensemble d’individus, on appelleclassification en q groupes une famille (Gg )1≤g≤q de partiesl’ensemble des individus I qui verifie :
I Tout individu i ∈ I appartienne a au moins un groupe,
I Il n’existe pas d’individu i ∈ I appartenant a deux groupesdifferents.
On dit que ((Gg )1≤g≤q est une partition de I
{G1, · · · ,Gq} ⊂ P(I)
∀1 ≤ g , g ′′ ≤ q, g 6= g ′ ⇒ Gg ∩ Gg ′ = ∅∪1≤g≤qGq = I
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 29 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classification non supervisee
I Les donnees sont rangees dans une tableindividus × variables.
I Le but est de creer et de caracteriser des groupes ouclasses d’individus disjoints.
I Les individusI d’un meme groupe doivent proches les uns des autresI de deux groupes distincts doivent etre eloignes les uns des
autres
I La classification est non supervisee car on ne connait pas apriori les groupes.
I C’est une methode multidimensionnelle. Pour un individu,on dispose de plusieurs variables.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 30 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classifier quoi ?
La classification peut etre faite sur les donnees brutes
1. Les variables peuvent etre uniquement quantitatives
2. Les variables peuvent etre uniquement qualitatives
3. Les variables peuvent etre quantitatives ou qualitatives
La classification peut etre faite sur des donnees intermediaires
1. Dans le cas de deux variables qualitatives sur des tableauxde contingences (analyse factorielle des correspondances)
2. Dans le cas de plusieurs variables qualitatives sur desscores obtenus par une analyse des correspondancesmultiples.
3. Sur des tableaux de distances entre individus.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 31 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 32 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Qualite d’une partition dans unespace euclidien
Soit (Gg )1≤g≤q la partition en groupe de l’ensemble desindividus I = {1, · · · , n}. On a pour chaque individu i lesobservations quantitatives xi ∈ (Mp,1(R), <, . >M). L’espacedes observation est suppose euclidien. Soit pi > 0 le poids del’individu i ∈ I et on note xg le centre de gravite du groupeGg . On definit :
inertie totale Itotale =∑
i∈I pi‖xi − x‖2
inertie intra Iintra =∑
1≤g≤q
∑i∈Gq
pi‖xi − xg‖2
inertie inter Iinter =∑
1≤g≤q(∑
i∈Gqpi )‖xg − x‖2
On a alors la decomposition suivante ou theoreme deHuyghens :
Itotale = Iintra + Iinter
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 33 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Qualite d’une partition
Quand la somme des poids vaut 1, alors on peut interpreter
inertie totale comme la moyenne des carres de la distanceentre les individus et le centre de gravite
inertie intra comme la moyenne des carres de la distance entreles observations et le centre de gravite du groupeauquel appartient l’individu
inertie inter comme la moyenne des carres de la distancemoyenne entre le centre de gravite et les centresde gravites des groupes.
Un rapport eleve de l’inertie inter sur l’inertie intra estsynonyme de bonne separation.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 34 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Bons groupes, mauvaise separation
−2 −1 0 1 2
−2
−1
01
2
x
y A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
GroupesA = 4B = 4C = 4
Inertie 2=50(intra%)+50(inter%)
On a ici d(G ,Gi ) = 1, d(Gi , xj) = 1
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 35 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Bons groupes, bonne separation
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
GroupesA = 4B = 4C = 4
Inertie 17=5.88(intra%)+94.1176(inter%)
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 36 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Mauvais groupes
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y AA
A
A
AA
A
A
AA
A
A
AA
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
GroupesA = 4B = 4C = 4
Inertie 17=73.79(intra%)+26.2079(inter%)
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 37 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 38 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Constructions de partitions
On suppose que l’on a N resultats de classifications sous formede partition de l’ensemble des individus
I (G 11 , · · · ,G 1
n1) une partition en n1 groupes
I (G 21 , · · · ,G 2
n2) une partition en n2 groupes
I · · ·I (GN
1 , · · · ,GNnN
) une partition en nN groupes
La partition en formes fortes consiste a ne retenir que lesclasses d’individus n’ayant jamais ete separes. Les classes necontenant qu’un seul individu ne sont pas d’un grand interet.
(G 1i1 ∩ G 2
i2 ∩ G 3i3 ∩ · · · ∩ GN
iN)(i1,··· ,iN)∈Πj=N
j=1 [0,nj ]
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 39 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Exemple de forme forte
i Part1 Part2 Part3 Forte1 1 1 1 12 1 1 1 13 1 1 1 14 2 1 1 25 2 1 1 26 2 2 2 37 3 3 2 48 3 3 2 49 3 4 3 510 4 4 4 611 4 4 3 712 4 4 4 6
Forte = {{1, 2, 3}{4, 5}, {6}, {7, 8}, {9}, {10, 12}, {11}}
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 40 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 41 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Methodes de classification
Pre-traitements
Classification
������
HHHHHH
Hiearchique
��
��H
HHH
Ascendante Descendante
NueesDynamiques
Exhaustif
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 42 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classification exhaustive
Cette methode consiste a enumerer toutes les partitionspossibles. Si il y a n individus, le nombre de partitions a kgroupes ou ensembles est :
1
k!
i=k∑i=0
C ik(−1)k−i in
C’est le nombre de surjections de l’ensemble {1, · · · , n} vers{1, · · · , k} divise par k!. A chaque individu i ∈ {1, · · · , n} onfait correspondre sa classe g ∈ {1, · · · , k}.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 43 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Nombre de partitions
n k nb
12 3 86526
24 3 47063200806
36 3 25015738189761486
48 3 13294407038741263288566Quand le nombre de partitions est petit, il est possibled’envisager d’enumerer toutes les partitions.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 44 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 45 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Creation de partitions
Il existe des classifications simples, mais pas souventinteressantes. Ces partitions servent de conditions initiales ades algorithmes plus sophistiques.
I On considere la classification ou chaque groupe contientexactement un individu.
I On considere la classification constituee d’un uniquegroupe l’ensemble des individus.
I On choisit le nombre de groupe et on affecte au hasard lesindividus a ces groupes.
I On choisit q centres, et pour chaque centre on choisit lesindividus ayant des observations plus pres de ce centre quedes autres(mosaique de Voronoi).
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 46 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classification elementaire
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
GroupesA = 12
Classification en un groupe
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
1
2
3
4
5
6
7
8
9
10
11
12
GroupesA = 1B = 1C = 1D = 1E = 1F = 1G = 1H = 1I = 1J = 1K = 1L = 1
Classification en douze groupes
G1 = {1, · · · , 12} G1 = {1}, · · · ,G12 = {12}
Les deux classifications correspondent a
I un seul groupe
I un seul individu par groupe
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 47 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classification en 3 groupes
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
5
6
7
8
5
6
7
8
5
6
7
8
5
6
7
8
9
10
11
12
9
10
11
12
9
10
11
12
9
10
11
12
GroupesA = 4B = 4C = 4
Classification en trois groupes
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
1
6
7
1
6
7
1
6
7
3
5
9
10
3
5
9
10
3
5
9
10
3
5
9
10
2
4
8
11
12
2
4
8
11
12
2
4
8
11
12
2
4
8
11
12
2
4
8
11
12
GroupesA = 3B = 4C = 5
Classification en trois groupes
G1 = {1, 2, 3, 4}, · · · G1 = {1, 6, 7}, · · ·
Partition en 3 groupes :
I la partition qui semble la meilleure
I on affecte aleatoirement les individus aux groupes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 48 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Mosaique de Voronoi
Soit I = {1, · · · , n} l’ensemble des individus et (xi )i∈Il’ensemble des observations E . On suppose que l’ensemble desobservations est muni d’une distance d . Soit (cg )1≤g≤q unensemble de q centres dans E . On definit le groupe G (i) del’individu i par
G (i) := argmin1≤g≤q(d(xi , cg ))
Le groupe de l’individu i est le numero du centre le plus prochede xi . Si la distance est deduite d’un produit scalaire. Lesregions definissant les groupes sont des intersections dedemi-plan delimites par des mediatrices entre deux centres.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 49 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
100 centres dans [0,1]x[0,1]
Voronoi mosaic
v
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 50 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 51 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 52 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Nuees dynamiques
On cherche une partition qui minimise l’inertie intra groupe ouqui maximise l’inertie inter groupe. L’idee est de construirepour chaque centre l’ensemble des individus les plus proche dece centre. Ces ensembles constitueront la partition associee aces centres.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 53 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Parametres
distance il faut choisir une distance entre individus
nombre de groupes il faut choisir le nombre de groupes a priori
centre de gravite il faut choisir des centres de gravites qui vontservir de conditions initiales.
difficulte la partition depend des centres de gravitesinitiaux.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 54 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Algorithme
Algorithme iteratif :a un centre on associe l’ensemble desindivius les plus proches.
Initialisation choix de centres
Boucle tant que la partition est modifiee :
1. affecter les individus aux groupes definis parles centres,
2. calculer les centres de gravites des groupes,3. prendre comme centres les centres de gravite
des nouveaux groupes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 55 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 56 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Bonne classification
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 4B = 4C = 4
Algorithme nuées dynamiquesInertie 17=87.22(intra%)+14.061(inter%)
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 4B = 4C = 4
Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)
I Convergence en deux iterations.
I Inertie intra classe vaut 6 pourcent de l’inertie totale.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 57 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Convergence
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 6B = 4C = 2
Algorithme nuées dynamiquesInertie 17=68.94(intra%)+48.3571(inter%)
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 4B = 4C = 4
Algorithme nuées dynamiquesInertie 17=17.98(intra%)+75.1008(inter%)
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 4B = 4C = 4
Algorithme nuées dynamiquesInertie 17=5.88(intra%)+94.1176(inter%)
I Convergence en trois iterations.
I Inertie intra classe vaut 6 pourcent de l’inertie totale.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 58 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Autre classification
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 2B = 2C = 8
Algorithme nuées dynamiquesInertie 17=65.98(intra%)+20.3542(inter%)
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 2B = 2C = 8
Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)
−4 −2 0 2 4 6
−6
−4
−2
02
46
x
y
GroupesA = 2B = 2C = 8
Algorithme nuées dynamiquesInertie 17=51.96(intra%)+48.0392(inter%)
I Convergence en trois iterations.
I Inertie intra classe vaut 52 pourcent de l’inertie totale.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 59 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 60 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Parametres
Nb de groupes c’est le premier parametres a choisir
Conditions initiales Mettre le plus possible de connaissances apriori dans le choix des centres. Faire de nombreuxessais en choisissant des centres aleatoirement.
Nombre d’iterations limiter dans un premier temps
Rapidite Algorithme tres rapide meme avec un grandnombre d’individus et un grand nombre devariables.
Facilite d’utilisation Present dans les logiciels R kmeans, dansSAS fastclus
distance Dans R, c’est la distance canonique euclidienne,dans SAS on peut choisir des distances lp
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 61 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Resultats
bonne solution ? L’algorithme des nuees dynamiques rechercheun minimum local. On ne peut etre sur que c’estla meilleure solution.
valeurs aberrantes Elles seront regroupees dans des groupescomposes d’un unique individu (loin de toutes lesautres valeurs). On peut se servir de cetalgorithme pour la recherche de valeursaberrantes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 62 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 63 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 64 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Dissimilarite entre individus
Soit E = E 1 × E 2 × · · · × Ep l’espace des observations.d unedissimilarite de l’ensemble E . Soit X la table des observationsdes n individus (Xi )1≤i≤n et
D ∈Mn,n(R+)
la matrice de dissimilarite entre ces individus
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 65 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 66 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Classifications hierachiques
Les techniques hierarchiques de classification consistent aconstruire une arbre de partitions en partant de partitionselementaires :
I de la partition la plus fine : celle consituee de classes necontenant qu’un seul individu vers la partition la plusgrossiere : une seule classe contenant tous les individus.On agglomere les classes et on parle d’analyse hierachiqueascendante.
I de la partition la plus grossiere : vers la partition la plusfine : on decoupe les classes, on parle d’analysehierarchique descendante ou d’arbre de decision.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 67 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Arborescence des partitions
{a, b, c , d , e}
����
HHHH
{a, b}�� HH
{a} {b}
{c , d , e}���
HHH
{c , d}�� HH
{c} {d}
{e}
La partition la plus fine est P1 = {{a}, {b}, {c}, {d}, {e}}.Une partion intermediaire est P2 = {{a}, {b}, {c , d}, {e}}.La partition la plus grossiere est P4 = {{a, b, c , d , e}}.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 68 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 69 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance moyenne entre classes
Soit I l’espace des individus, on suppose que l’on a un mesurede dissimilarite ou distances dans l’espace des individus d . Onveut definir une mesure de dissimilarites ou distance D entre lesdeux groupes
D :
{P(I) → R+
(C ,C ′) 7−→ D(C ,C ′)
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 70 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance moyenne
La distance moyenne (method=average SAS,R) entre deuxgroupes est la moyenne des distances entre les individus dugroupe C d’effectif c et les individus du groupe C ′ d’effectif c ′.On a :
D(C ,C ′) =1
cc ′
∑i∈C ,i ′∈C ′
d(xi , xi ′)
Soient A et B eux groupes d’effectifs a, b respectivement alorson a la formule d’agregation :
D(C ,A ∪ B) =aD(C ,A) + bD(C ,B)
a + b
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 71 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance minimale
La distance minimale (method=single SAS,R) entre deuxgroupes est la plus petite des distances entre les individus dugroupe C et les individus du groupe C ′. On a :
D(C ,C ′) = Mini∈C ,i ′∈C ′d(xi , xi ′)
D(C ,A ∪ B) = Min(D(C ,A),D(C ,B))
I Construction de grands groupes
I Deux groupes seront reunis si deux individus sont proches.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 72 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance maximale
La distance maximale (method=complete SAS,R) entre deuxgroupes est la plus grande des distances entre les individus dugroupe C et les individus du groupe C ′. On a :
D(C ,C ′) = Maxi∈C ,i ′∈C ′d(xi , xi ′)
D(C ,A ∪ B) = Max(D(C ,A),D(C ,B))
I Creation de classe de meme diametre (plus grandedistance entre deux points de la meme classe)
I Sensiblite aux valeurs aberantes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 73 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance des centres de gravites
La distance entre individus est le carre d’une distanceeuclidienne. La distance des centres de gravite(method=centroid SAS,R) entre deux groupes est le carre dela distance entre les deux centres de gravite xC des (xi )i∈C etxC ′ des (xi )i∈C ′ . On a :
D(C ,C ′) = d(xC , xC ′)
D(C ,A ∪ B) =a
a + bD(C ,A) +
b
a + bD(C ,B)
− ab
(a + b)2D(A,B)
I robuste vis a vis de valeurs aberantes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 74 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance des centres de gravites
Si la distance dans entre individus est le carre d’une distanceeuclidienne, la formule d’agregation est exacte. Soient A,B,C 3points d’un espace affine euclidien et G le barycentre de(B, b), (C , c) avec b ≥ 0, c ≥ 0, b + c = 1, alors
‖AG‖2 = ‖b ~AB + c ~AC‖2
= b2‖ ~AB‖2 + c2‖ ~AC‖2 + 2bc < ~AB, ~AC >
De plus
b‖ ~AB‖2 + c‖AC‖2 − bc‖ ~BC‖2
= b‖ ~AB‖2 + c‖AC‖2 − bc < ~BA + ~AC , ~BA + ~AC >
= (b − bc)‖ ~AB‖2 + (c − bc)‖AC‖2 + 2bc < ~AB, ~AC >
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 75 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Wald : perte d’inertieOn cherche pour chaque etape d’aglomeration a obtenir une partitiion qui minimise l’inertie intra classeparmi toutes les partitions obtenues en agregant deux parties A et B de la precedente partition. Soit gA etgB les centre de gravite A et B de poids a =
Pi∈A pi ≥ 0 et b
Pi∈B pi ≥ 0 avec a + b = 1. Soit G le
barycentre de (gA, a) et de (gB , b) alors :
I intraA∪B =
Xi∈A∪B
pi‖xi − G‖2
=Xi∈A
pi‖xi − G‖2 +Xi∈B
pi‖xi − G‖2
=Xi∈A
pi‖(xi − gA) + (gA − G)‖2 +Xi∈B
pi‖(xi − gB ) + (gB − G)‖2
=Xi∈A
pi‖xi − gA‖2 +
Xi∈B
pi‖xi − gB‖2 + (
Xi∈A
pi )‖gA − G‖2 + (Xi∈B
pi )‖gB − G‖2
On a donc
I intraA∪B − I intra
A,B = a‖gA − G‖2 + b‖gB − G‖2
= a ∗ 0 + b‖gB − gA)‖2 + (a + b)‖gA − G‖2
a(I intra
A∪B − I intraA,B )
a + b=
ab
a + b‖gB − gA)‖2 + a‖gA − G‖2
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 76 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Distance de Ward
Minimiser l’ecart entre les partitions avant et apresaglomeration de l’inertie intra classe revient a chercher la classeB qui rend minimum l’expression suivanteab
a+b‖gB − gA‖2 + a‖gA − G‖2. On prend come mesure d’ecartau sens de Wald
D(A,B) =ab
a + b‖gB − gA‖2.
Dans le cas ou l’on prendrait une distance plus generale pourmesurer l’ecart entre les centres de gravites , on pose
D(A,B) =ab
a + bd(gB , gA).
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 77 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Ward : Formule d’agregation
Le poids des classes (A, B, C) vallent respectivement (a, b, c)
D(A, B ∪ C) =a(b + c)
a + b + c‖gA − gA∪B‖
2
=a(b + c)
a + b + c
b
b + c‖gA − gB‖
2 +c
(b + c)‖gA − gC‖
2 −bc
(b + c)2‖gB − gC‖
2
!
=a + b
a + b + c
ab
a + b‖gA − gB‖
2 +a + c
a + b + c
ac
a + c‖gA − gC‖
2
−a
a + b + c
cb
b + c‖gB − gC‖
2
=a + b
a + b + cD(A, B) +
a + c
a + b + cD(A, C) −
a
a + b + cD(B, C)
La formule
I construit des classes d’egal effectif,
I et est sensible aux donnees aberantes.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 78 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Algorithme d’agregation
initialisation :
I Construire la partition la plus fineI Construire la matrice de distance
tant que qu’il reste plus de 2 parties :
I Rechercher les deux classes les plus proches,I Aggreger ces deux classes,I Construire la matrice des distances de cette
nouvelle partition en utilisant les formulesd’agregation
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 79 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Remarques
L’algorithme de classification hierachique ascendant depend
I de la mesure de dissimilarites entre individus
I du choix de la mesure entre classes.
I f : R → R croissante alors la suite des partitions estinchangee si l’on change d en f ◦ d (distance ou distanceau carre).
I Si on a n individus la hauteur de l’arbre est au maximumde n − 1.
I On determine la partition en coupant l’arbre des partitionsa une hauteur h ou bien en donnant le nombre de classesdesirees.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 80 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Ex : distance euclidienne
Distance euclidienne dans l’espace des individus. La matrice dedissimilarite est la matrice constitue des carres des elements dela matrice des distances. On choisit la methode d’aglomerationpar saut minimum.
cah-distance-euc A B C D E F
A 0.00 0.57 3.22 4.17 1.35 2.19B 0.57 0.00 2.66 3.61 0.78 1.68C 3.22 2.66 0.00 1.08 1.89 1.17D 4.17 3.61 1.08 0.00 2.83 2.24E 1.35 0.78 1.89 2.83 0.00 1.00F 2.19 1.68 1.17 2.24 1.00 0.00
Tab.: Distance euclidienne
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 81 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 82 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Condition initiale
{A} {B} {C} {D} {E} {F}A B C D E F
A 0.0 0.3 10 17. 1.8 4.8B 0.3 0.0 7.1 13. 0.6 2.8C 10. 7.1 0.0 1.2 3.6 1.4D 17. 13. 1.2 0.0 8.0 5.0E 1.8 0.6 3.6 8.0 0.0 1.0F 4.8 2.8 1.4 5.0 1.0 0.0
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 83 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Iteration 1
{A, B, C , D, E , F}
��������
����
HHHH
XXXXXXXX
{A, B}�� HH
{A} {B} {C} {D} {E} {F}B,A C D E F
B,A 0.0 7.1 13. 0.6 2.8C 7.1 0.0 1.2 3.6 1.4D 13. 1.2 0.0 8.0 5.0E 0.6 3.6 8.0 0.0 1.0F 2.8 1.4 5.0 1.0 0.0
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 84 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Iteration 2 et 3
{A, B, C , D, E , F}
�������
���
@@@
PPPPPPP
{A, B, E}
�� HH{A, B}�� HH
{A} {B}
{E}
{C} {D} {F}
A.. C D FA.. 0.0 3.6 8.0 1.0C 3.6 0.0 1.2 1.4D 8.0 1.2 0.0 5.0F 1.0 1.4 5.0 0.0
{A, B, C , D, E , F}
���
��
HHH
HH
{A, B, E , F}
���
HHH
{A, B, E}
�� HH{A, B}�� HH
{A} {B}
{E}
{F}
{C} {D} F.. C DF,E,B,A 0.0 1.4 5.0C 1.4 0.0 1.2D 5.0 1.2 0.0
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 85 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Iteration 4
{A, B, C , D, E , F}
���
HHH
{A, B, E , F}
���HHH
{A, B, E}
�� HH{A, B}�� HH
{A} {B}
{E}
{F}
{C , D}�� HH
{C} {D}D,C F,E,B,A
D,C 0.00 1.36F,E,B,A 1.36 0.00
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 86 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Arbres binaires
F E A B C D
0.2
0.4
0.6
0.8
1.0
1.2
1.4
minimum & euclidien
hclust (*, "single")minimum
haut
eur F
E
A B
C D
0.2
0.4
0.6
0.8
1.0
1.2
1.4
minimum & euclidien
hclust (*, "single")minimum
haut
eur
Arbre binaire de classification hierarchique
I Les niveaux des palliers correspondent a la valeur du saut.D({A,B,E ,F}, {C ,D}) = 1.36
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 87 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 88 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Saut minimal
−6 −4 −2 0 2 4 6 8
−4
−2
02
46
x
y
GroupesA = 50B = 25
68 52 56 75 59 64 53 62 71 66 70 69 73 57 63 61 72 58 54 55 60 67 51 65 74 10 5 6 44 43 31 24 45 20 30 4 7 18 36 14 15 29 34 33 35 26 50 27 12 25 37 49 17 22 9 16 39 46 21 40 11 19 32 28 8 48 13 41 42 1 23 3 2 38 47
01
23
45
67
euclidean single
hclust (*, "single")minimum
haut
eur
L’algorithme d’agregation avec le saut minimal favorise lechainage et est tres sensible aux points aberrants.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 89 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Saut minimal : 2 et 3 groupes
−6 −4 −2 0 2 4 6 8
−4
−2
02
46
x
y
Groupes1 = 502 = 25
euclidean single groupes= 2
−6 −4 −2 0 2 4 6 8
−4
−2
02
46
x
y
Groupes1 = 492 = 13 = 25
euclidean single groupes= 3
Les groupes bien separes ( grande inertie inter par rapport al’inertie intra) sont bien regroupes. Avec 3 groupes on apercoitdes points isoles ou aberrants.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 90 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Chainage
−2 0 2 4
−4
−2
02
46
x
y
GroupesA = 50B = 25C = 303
chainage euclidean ward
683
681
682
693
691
692
703
701
702
715
711
713 22 723
721
722
733
731
732
743
741
742
753
751
752
633
631
632
643
641
642
673
671
672
653
651
652
663
661
662
573
571
572
583
581
582
553
551
552
563
561
562
593
591
592
603
601
602
615
611
613
623
621
622
852 85 851
862 86 861
892 89 891
902 90 901
872 87 871 52 882 88 881
762 76 761
772 77 771
782 78 781
792 79 791
802 80 801
814 81 812
842 84 841
822 82 821
832 83 831 69 74 73 66 72 61 68 56 58 71 67 64 65 53 57 75 59 70 51 62
1012 101
1011 992 99 991
1002 100
1001 60 63 972 97 971
982 98 981 55 952 95 951
962 96 961
914 91 912 54 922 92 921
932 93 931
942 94 941 32 19 46 233
231
232
215
211
213
223
221
222
243
241
242
253
251
252
263
261
262
273
271
272
283
281
282
293
291
292
303
301
302
315
311
313
323
321
322
333
331
332 28 343
341
342 2 17 42 353
351
352
363
361
362
373
371
372
383
381
382
433
431
432
443
441
442
415
411
413
423
421
422
393
391
392
403
401
402
473
471
472
483
481
482
453
451
452
463
461
462
533
531
532
543
541
542
493
491
492
503
501
502 49 515
511
513
523
521
522 23 45 1 24 6 40 41 26 44 27 7 18 21 33 14 30 31 16 3 13 48 34 8 38 43 25 11 10 39 5 37 4 35 15 36 104
102
103
813
810
811
913
910
911
115
111
113
123
121
122
133
131
132
143
141
142 12 203
201
202
183
181
182
193
191
192
173
171
172
153
151
152
163
161
162
114
110
112
214
210
212
614
610
612
714
710
712
314
310
312
414
410
412
514
510
512 9 50 20 29 47
020
040
060
080
010
0012
00
euclidean wardInertie 3.0531=18.96(intra%)+81.0353(inter%)
hclust (*, "ward")minimum
haut
eur
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 91 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Chainage minimal/ward 2 groupes
−2 0 2 4
−4
−2
02
46
x
yGroupes1 = 1752 = 1
euclidean single groupes= 2Inertie 4.357=93.69(intra%)+6.3072(inter%)
−2 0 2 4
−4
−2
02
46
x
y
Groupes1 = 2112 = 167
euclidean ward groupes= 2Inertie 3.0531=35.23(intra%)+64.7679(inter%)
Saut minimal Saut de Ward
Saut minimal, deux individus de deux groupes soient prochesalors les deux groupes sont agreges.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 92 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
maximal/ward 4 groupes
−6 −4 −2 0 2 4 6 8
−4
−2
02
46
x
y
Groupes1 = 372 = 103 = 34 = 25
euclidean complete groupes= 4Inertie 8.9341=21.1(intra%)+78.9011(inter%)
−6 −4 −2 0 2 4 6 8
−4
−2
02
46
x
y
Groupes1 = 212 = 193 = 104 = 25
euclidean ward groupes= 4Inertie 8.9341=18.61(intra%)+81.3918(inter%)
Saut maximal Saut de Ward
Saut maximal : pas de chainage, classes compactes. Saut deWard classes d’effectif egaux.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 93 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Plan
Introduction
Structures des donneesTablesDissimilarites
ClassificationPartitionnementInertieFusion de deux classificationsAlgorithmes
Classification de Voronoı
Algorithme des nuees dynamiquesDefinitionExemplesDiscussion
Algorithme hierarchiqueDefinitionsAgregationDistancesExempleDiscussion
Conclusion
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 94 / 95
Classif
Introduction
Les donnees
Tables
Dissimilarites
Classification
Partitionnement
Inertie
Fusion
Algorithmes
Voronoı
Nuees dyn.
Definition
Exemples
Discussion
Hierarchique
Definitions
Agregation
Distances
Exemple
Discussion
Conclusion
Conclusion classification
Les algorithmes de classification non supervises sont divises endeux groupes : d’une part les algorithmes de partitionnement,l’algorithme des nuees dynamiques et d’autres part lesalgorithmes de classification hiearchique.
nuees dynamique algorithme iteratif : conditions initiales choixde centres, arret a la stabilite. correspond a unchoix de centres, puis a un algorithme iteratif.
hiearchique algorithme iteratif : conditions initiales partitionla plus fine possible, arret quand le nombre degroupes desire est atteint.
[email protected] Classification et BD M1:MASS-IMM 30 janvier 2008 95 / 95