r eduction de dimensionnalit e un exemple de m ethode : l ...€¦ · r eduction de dimensionnalit...

20
eduction de dimensionnalit´ e Un exemple de m´ ethode : l’Analyse en Composantes Principales (ACP) Principal Component Analysis (PCA) P.M. Bousquet CERI P.M. Bousquet (CERI) Cours U.E. Data Analytics 1 / 19

Upload: others

Post on 03-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Reduction de dimensionnalite

Un exemple de methode :l’Analyse en Composantes Principales (ACP)

Principal Component Analysis (PCA)

P.M. Bousquet

CERI

P.M. Bousquet (CERI) Cours U.E. Data Analytics 1 / 19

Page 2: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Problematique

pvariables

nindividus

X =

..........

r"super-"variables

nindividus

X' =

..........

(composantesprincipales)

CLASSIFICATION REDUCTIONde DIMENSIONNALITE

classe 1

classe 2

classe 3

P.M. Bousquet (CERI) Cours U.E. Data Analytics 2 / 19

Page 3: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche (a quoi ca sert ?)

r = 1 :

VarLandesGironde

SuèdeFranceThaïlande

SILICON GRAPHICS INC

A D C TELECOMMUNICAT

APPLIED DIGITAL ACCE

TEKELEC

MANUGISTICS GROUP INC

CYPRESS SEMICONDUCTOR

NETWORK GENERAL CORP

NOVADIGM INC

Score de santé financière(solvabilité, performance ...)

Indice de développement socio-économique

Indice de délinquance

0/5 5/5

Détermination des migrationspréhistoriques par la génétique(Lucas Cavalli-Sforza)

P.M. Bousquet (CERI) Cours U.E. Data Analytics 3 / 19

Page 4: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche

r ≤ 3 : Data visualization ...

P.M. Bousquet (CERI) Cours U.E. Data Analytics 4 / 19

Page 5: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche

r quelconque (1, 2, 3 ou +) : Trouver les causes principales de variabilite ...

P.M. Bousquet (CERI) Cours U.E. Data Analytics 5 / 19

Page 6: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche

r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

R G Bpixel 1

R G Bpixel 64

bloc 8 x 8 pixels

.................................. 3 x 8 x 8 = 192 (= p)

........ 15 (= r)- Taux de compression 92 %- 98% de la dispersion (information) initiale

P.M. Bousquet (CERI) Cours U.E. Data Analytics 6 / 19

Page 7: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche

r quelconque (1, 2, 3 ou +) : mais aussi ... Compression de donnees

Compression Décompression100%8%

P.M. Bousquet (CERI) Cours U.E. Data Analytics 7 / 19

Page 8: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Interet de la demarche

r quelconque (1, 2, 3 ou +) : mais aussi ... “Debruitage”

P.M. Bousquet (CERI) Cours U.E. Data Analytics 8 / 19

Page 9: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Pourquoi ca marche ?

Matrice des correlations

100m Longueur Poids Hauteur 400m 110m.haies Disque Perche Javelot 1500m

100m 1.00 -0.70 -0.37 -0.31 0.63 0.54 -0.23 -0.26 -0.01 0.06

Longueur -0.70 1.00 0.20 0.35 -0.67 -0.54 0.25 0.29 0.09 -0.15

Poids -0.37 0.20 1.00 0.61 -0.20 -0.25 0.67 0.02 0.38 0.13

Hauteur -0.31 0.35 0.61 1.00 -0.17 -0.33 0.52 -0.04 0.20 0.00

400m 0.63 -0.67 -0.20 -0.17 1.00 0.52 -0.14 -0.12 -0.05 0.55

110m.haies 0.54 -0.54 -0.25 -0.33 0.52 1.00 -0.22 -0.15 -0.08 0.18

Disque -0.23 0.25 0.67 0.52 -0.14 -0.22 1.00 -0.18 0.25 0.22

Perche -0.26 0.29 0.02 -0.04 -0.12 -0.15 -0.18 1.00 -0.07 0.18

Javelot -0.01 0.09 0.38 0.20 -0.05 -0.08 0.25 -0.07 1.00 -0.25

1500m 0.06 -0.15 0.13 0.00 0.55 0.18 0.22 0.18 -0.25 1.00

P.M. Bousquet (CERI) Cours U.E. Data Analytics 9 / 19

Page 10: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (1)

Projection orthogonale

P.M. Bousquet (CERI) Cours U.E. Data Analytics 10 / 19

Page 11: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (1)

Comment choisir le meilleur sous-espace de projection ?

P.M. Bousquet (CERI) Cours U.E. Data Analytics 11 / 19

Page 12: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (2)

P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19

Information (de comparaison entre les individus)=

variance (dispersion)

ABCD

age

32323232

nbenfants

1111

revenu

2000200020002000

Informations Informationsde comparaisonentre les individus ? aucune ...

<=> Variance = 0

Page 13: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (2)

P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19

Information (de comparaison entre les individus)=

variance (dispersion)

Variance(dispersion)

+

Variance(dispersion)

-

−4 −2 0 2 4

−3

−2

−1

01

23

V1

V2 0.5

0.65

0.77

0.84

0.850.81

0.710.570.430.290.19

0.15

0.16

0.23

0.35

0.5

Page 14: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (2)

P.M. Bousquet (CERI) Cours U.E. Data Analytics 12 / 19

Objectif :trouver les axes qui maximisent

la variance des projetes.

Variance(dispersion)

+

Variance(dispersion)

-

−4 −2 0 2 4

−3

−2

−1

01

23

V1

V2 0.5

0.65

0.77

0.84

0.850.81

0.710.570.430.290.19

0.15

0.16

0.23

0.35

0.5

Page 15: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

La solution ACP (2)

P.M. Bousquet (CERI) Cours U.E. Data Analytics 13 / 19

Objectif : trouver les axes qui maximisent la variance des projetes.

Solution : SVD (Decomposition en valeurs spectrales) de la matrice descorrelations.Les meilleurs axes sont les vecteurs propres de la matrice des correlations dans l’ordre decroissant des valeurs

propres. Les donnees sont projetees sur le sous-espace dont ils constituent une base. Les variances successives

des projetes sur leurs axes sont egales aux valeurs propres de cette matrice.

3 2 1 0 1 2

32

1V

2

3 2 1 0 1 2

32

1

V2

v1, v2 vecteurs propres λ1, λ2 valeurs propres

SVD ... λ2v2

λ1v1

Page 16: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Un exemple de DRT : Principal Component Analysis PCA

cp1 : rouge - cp2 : orange - cp3 : jaune

P.M. Bousquet (CERI) Cours U.E. Data Analytics 14 / 19

Page 17: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP

pn

...p

matrice descorrélations

pr

p

r premiersvecteurs propres

...... ... ... ......

Jeu de donnéesvectoriel

... La cléde l'extraction

de connaissances ...

P.M. Bousquet (CERI) Cours U.E. Data Analytics 15 / 19

Page 18: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Vecteurs propres (eigenvectors) : beaucoup plus que l’ACP

P.M. Bousquet (CERI) Cours U.E. Data Analytics 16 / 19

Page 19: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Graphe des contributions

Le graphe des contributions affiche les variances des composantes principales.Comment choisir le nombre de composantes a retenir ?

2.69 1.77 0.89 0.45 0.14 0.05

0.0

1.0

2.0

45 %

30 %

15 %7 %

2 % 1 %

CP1

CP2

CP3CP4

CP5 CP60.0

1.0

2.0

V1 V2 V3 V4 V5 V6

11 1 1 1 1

Deux composantes principales de variancesignificativement supérieure à 1 ....donc plus informatives que les variables initiales.

Ce sont donc des super-variables.

Après centrage-réduction, toutes les variables initiales ont une variance de 1.

Propriete : les composantes principales sont statistiquement independantes.

Ici, les deux premieres C.P. conservent (... “resument” ...) 45 + 30 = 75% de l’information initiale.

P.M. Bousquet (CERI) Cours U.E. Data Analytics 17 / 19

Page 20: R eduction de dimensionnalit e Un exemple de m ethode : l ...€¦ · R eduction de dimensionnalit e Un exemple de m ethode : l’Analyse en Composantes Principales (ACP) Principal

Expliquer les composantes principales

Les “super-variables” des composantes principales ont un sens par rapport auxvariables initiales. Comment les “expliquer” par rapport a ces variables ?

Tableau des correlations entre variables initiales et composantes principales

positives > 0.70négatives < 0.70

cp1

V2 +V3 +V4 -V6 -

V2 -V3 -V4 +V6 +

Corrélations retenues :

cp1 cp2 cp3 cp4 cp5 cp6V1 -0.06 0.85 -0.44 0.17 -0.21 0.01V2 0.77 -0.50 -0.37 0.00 -0.03 0.16V3 0.84 -0.37 -0.36 0.07 -0.02 -0.16V4 -0.71 -0.49 -0.22 -0.41 -0.18 -0.02V5 0.56 0.65 -0.11 -0.49 0.11 0.00V6 -0.76 -0.04 -0.61 0.08 0.23 0.00

Individus àforts V2, V3et faibles V4, V6

Individus àfaibles V2, V3et forts V4, V6

P.M. Bousquet (CERI) Cours U.E. Data Analytics 18 / 19