clusterverfahren – bewährte statistische technik und basis...

36
Copyright © 2004, SAS Institute Inc. All rights reserved. Clusterverfahren – bewährte statistische Technik und Basis für Data Mining Analysen Dr. Reinhard Strüby SAS Deutschland Business Competence Center Analytical Solutions

Upload: ngotruc

Post on 17-Aug-2019

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

Copyright © 2004, SAS Institute Inc. All rights reserved.

Clusterverfahren – bewährte statistische Technik und Basis für Data Mining AnalysenDr. Reinhard StrübySAS DeutschlandBusiness Competence Center Analytical Solutions

Page 2: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

2

Cluster-Techniken mit SASVariable Selection

VARCLUS

Plot DataPRINCOMP,MDS,CANDISC

PreprocessingACECLUS

‘Fuzzy’ ClusteringFACTOR Discrete Clustering

Hierarchical ClusteringCLUSTER Optimization Clustering

Parametric ClusteringFASTCLUS

Non-Parametric ClusteringMODECLUS

Page 3: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

3

Divisive ClusteringPROC VARCLUS nutzt Divisive Clustering um Untergruppen von Variablen zu bilden, die sich möglichst stark unterscheiden.

Page 4: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

4

Variablen-Reduktion

PROC VARCLUS reduziert Variable, nicht Dimensionen.

Page 5: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

5

Eigenwerte und Eigenvektoren

x1

x2

λ2

λ1

w2

w1

Page 6: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

6

Perfekte Lösung

Qualität der Cluster-Lösung

Typische Lösung

Keine Lösung

Page 7: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

7

Wahrscheinlichkeit der Clusterzugehörigkeit

Frequency

Gegeben durch die relativen Cluster-Häufigkeiten jeKlasse:

Probability

Page 8: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

8

Die Chi-Quadrat Statistik

∑∑−

=i j ij

ijij

expected) expected observed( 2

The chi-square statistic (and associated probability)• Prüft auf Assoziation• Abhängig vom Stichprobenumfang• Mißt nicht die Stärke der Assoziation

Page 9: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

9

Beurteilung der Stärke der Assoziation

WEAK STRONG0 1

CRAMER'S V STATISTIC

)1,1min(/V sCramer'

2

−−=

crnχ

Cramer’s V nimmt Werte von -1 bis 1 für 2x2-Tabellen an, Werte von 0 bis 1 sonst.

Page 10: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

10

Das Standardisierungsproblem

Standardisierung kann Gruppendifferenzen mildern.

vorher nachher

Page 11: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

11

Die Prozedur STDIZEAllgemeine Form:

PROC STDIZE METHOD=method <options>;VAR variables;

RUN;

PROC STDIZE METHOD=method <options>;VAR variables;

RUN;

Page 12: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

12

Approximate Covariance Estimation forClustering (ACECLUS)

Viele Clustermethoden arbeiten gut mit näherungsweise sphärischen Clustern. Sie sind nicht optimal für irregulär geformte Cluster.

Wenn man die Inner-Cluster-Covarianzmatrix kennen würde, könnten Daten so transformiert werden, dass mehr sphärisch geformte Cluster entstehen !

Da die Cluster nicht bekannt sind, kann die Kovarianzmatrix je Cluster nicht direkt berechnet werden.

Aber es gibt Schätzmethoden: Prozedur ACECLUS (ApproximateCovariance Estimation for Clustering).

Page 13: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

13

Die Prozedur ACECLUS

Starte mit einer Matrix A als Anfangsschätzung.Berechne die inverse Matrix M=A-1.Berechne A neu durch:

4. Wiederhole 2 und 3 bis sich die Schätzung stabilisiert.

( )( )

∑∑

∑∑

=

=

=

=

−−= n

i

i

hih

n

i

i

hhkikhjijih

jk

d

xxxxda

2

1

1

2

1

1

2

Page 14: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

14

Hierarchical Clustering

Page 15: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

15

The CLUSTER ProcedureGeneral form of the CLUSTER procedure:

PROC CLUSTER METHOD=name <options>;COPY variables;VAR variables;

RUN;

PROC CLUSTER METHOD=name <options>;COPY variables;VAR variables;

RUN;

Page 16: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

16

The TREE ProcedureGeneral form of the TREE procedure:

PROC TREE OUT=SAS-data-set <options>;COPY variables;

RUN;

PROC TREE OUT=SAS-data-set <options>;COPY variables;

RUN;

Page 17: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

17

Average LinkageDer Abstand zweier Cluster ist der mittlere Abstand von Beobachtungspaaren.

( )∑ ∑∈ ∈

=K LCi Cj

jiLK

KL xxdnn

D

,1Cluster KCluster K

Cluster LCluster L

d(xi,xj)

Page 18: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

18

Centroid Linkage

2LKKL xxD −=

Der Clusterabstand ergibt sich aus dem quadriertenEuclidischen Abstand der Clustercentroids.

X

XDKL

Cluster KCluster K

Cluster LCluster L

Page 19: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

19

Maximaler Abstand von Beobachtungspaaren

Complete Linkage

Cluster KCluster K

Cluster LCluster L

DKL

),( max max K jiLKL xxdCjCiD ∈∈=

Page 20: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

20

42KLJLJK

JMDDDD −

+=

Median Linkage

DJK

DJL

Cluster JCluster J

DKL

Cluster KCluster K

Cluster LCluster LCluster MCluster M

Mittlerer Abstand zwischen externem Cluster J und jedem der Komponentencluster (CK and CL), minus ¼des Abstandes zwischen den Komponentenclustern.

Page 21: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

21

Minimaler Abstand zwischen Beobachtungspaaren.

Single Linkage

DKL

Cluster KCluster K

Cluster LCluster L

),( min min K jiLKL xxdCjCiD ∈∈=

Page 22: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

22

⎟⎟⎠

⎞⎜⎜⎝

⎛+

−=

LK

LKKL

nn

xxD

11

2

Ward’s Minimum-Variance

ANOVA

ANOVA

Ward’s Methode nutzt ANOVA um in sich homogeneCluster mit maximaler Trennkraft zu finden.

Page 23: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

23

k-Means Clustering: 3-Schritt-VerfahrenWahl der Anfangscluster (Centroids).Einlesen der Beobachtungen und Update der Cluster-

Zentren.Schritt 2 wird wiederholt bis die Verschiebungen der

Clusterzentren klein werden.

Jede Beobachtung wird dem nächstgelegenenClusterzentrum zugeordnet. Dadurch entstehen die Endcluster.

Page 24: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

24

X

XX

X

X

XX X

XX

XX

X

XX X

X

XX

X

XX XX

XX

X

… TimenTime0 Time1

MAXITER OptionDie MAXITER Option adjustiert die Centroids simultan, nachdem alle Beobachtungen eingelesen wurden.

Page 25: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

25

X

XX

X

X

XX X

XX

XX

X

X

XX X

X

XX

X

XX XX

X

…Time0 Time1 Time2

DRIFT OptionDie DRIFT Option adjustiert den nächstgelegenenCentroid, wenn Beobachtungen hinzukommen.

Page 26: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

26

The FASTCLUS ProcedureGeneral form of the FASTCLUS procedure:

PROC FASTCLUS <MAXC= | RADIUS=><options>;VAR variables;

RUN;

PROC FASTCLUS <MAXC= | RADIUS=><options>;VAR variables;

RUN;

Page 27: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

27

Sarle’s Cubic Clustering Criterion

Das cubic clustering criterion (CCC) testet die Hypothesen:

H0 = Die Daten stammen aus einerGleichverteilung in einem Unterraum

H1 = Die Datenstammen aus einer Mischung von multivariaten Normalverteilungen mit gleichenVarianzen und gleichen Gewichten.

Positive Werte sprechen für mehr Struktur in den Daten alsunter Normalverteilung zu erwarten wäre.

( ) 2.122

2

)(001.02

*

1)(1lnCCC

RE

np

RRE

+⎥⎦

⎤⎢⎣

⎡−

−=

Page 28: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

28

CCC soll maximiert werden:

Empfohlene Lösung

Page 29: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

29

Die Pseudo F-Statistik

Die Pseudo F-Statistik (PSF) mißt die Separation zwischen Clustern zu einem erreichten Hierarchielevel.

Sie ist nicht F-verteilt.

( )

( )gn

g

g

j ciki

n

ii

k

−⎟⎟⎠

⎞⎜⎜⎝

⎛−

−⎟⎠

⎞⎜⎝

⎛−

=

∑∑

= ∈

=

/

1/PSF

1

2

1

2

xx

xx

Page 30: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

30

Pseudo F soll ebenfalls maximiert werden:

Empfohlene Lösung

Page 31: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

31

Scoring nach FASTCLUS-Berechnungen1. Rechne eine Clusternanalyse und speichere die Centroide.

2. Lade die gespeicherten Centroide und score neueDaten.

PROC FASTCLUS OUTSTAT=centroids;PROC FASTCLUS OUTSTAT=centroids;

PROC FASTCLUS INSTAT=centroids OUT=scored;PROC FASTCLUS INSTAT=centroids OUT=scored;

Page 32: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

32

proc fastclus data=temp maxc=3 least=2maxiter=5 out=clusout outstat=centroids;

var &inputs;run;proc fastclus data=sbankte instat=centroidsleast=2 out=scored;

var &inputs;run;

Berechnen einer k-Means Cluster-Lösung und Scoring neuer Daten

Page 33: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

33

Scoring nach hierarchischer Clusterung1. Hierarchische Clusteranalyse

2. Cluster-Zuordnungen

(Continued)

PROC CLUSTER METHOD=method OUTTREE=tree;RUN;

PROC CLUSTER METHOD=method OUTTREE=tree;RUN;

PROC TREE DATA=tree OUT=out N=nclusters;RUN;

PROC TREE DATA=tree OUT=out N=nclusters;RUN;

Page 34: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

34

Scoring nach hierarchischer Clusterung3. Berechnung der Clustercentroide

4. Einlesen der Centroide und Scoring

PROC MEANS DATA=out;OUTPUT OUT=centroids;

RUN;

PROC MEANS DATA=out;OUTPUT OUT=centroids;

RUN;

PROC FASTCLUS DATA=new MAXC=nclustersSEED=centroids MAXITER=0 OUT=scored;

RUN;

PROC FASTCLUS DATA=new MAXC=nclustersSEED=centroids MAXITER=0 OUT=scored;

RUN;

Page 35: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

35

proc cluster data=distances method=ward pseudo outtree=tree;

var dist:; copy &inputs invest;run;

proc means data=treeout noprint;class cluster;var &inputs; output out=centroids mean=;

run;

proc fastclus data=sbankte seed=centroids maxc=3 maxiter=0out=scored noprint;

var &inputs;run;

Scoring nachhierarchischer Clusterung

Page 36: Clusterverfahren – bewährte statistische Technik und Basis ...de.saswiki.org/images/f/f3/10.KSFE-2006-Strueby-Clusterverfahren... · Ward’s Methode nutzt ANOVA um in sich homogene

Copyright © 2004, SAS Institute Inc. All rights reserved. 36Copyright © 2003, SAS Institute Inc. All rights reserved.