clustering

Post on 04-Jan-2016

22 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Clustering. Clustering. Cluster : a collection of objects which are simmilar between them and dissimilar to the objects belonging to other cluster Clustering : the process of organizing objects into groups whose members are similar in some way. Ilustrasi. Classification vs Clustering. - PowerPoint PPT Presentation

TRANSCRIPT

Clustering

Clustering

• Cluster : a collection of objects which are simmilar between them and dissimilar to the objects belonging to other cluster

• Clustering : the process of organizing objects into groups whose members are similar in some way

Ilustrasi

Classification vs Clustering

• Classification

Classification

Classification vs Clustering

• Clustering

Clustering

Karakteristik Clustering

Clustering

Partitioning

Hierarchical

Overlapping

Partitioning Clustering

• Disebut juga Exclusive Clustering

• Memungkinkan setiap data untuk masuk ke dalam cluster tertentu pada suatu tahapan proses clustering dan pada tahapan berikutnya berpindah ke cluster lain.

• Contoh : K-Means

Hierarchical Clustering

• Suatu data yang masuk ke dalam suatu cluster pada suatu tahapan proses tidak bisa berpindah ke cluster lain pada tahapan proses berikutnya.

• Contoh : Agglomerative Clustering.

Overlapping Clustering

• Setiap data dapat menjadi anggota dari beberapa cluster sekaligus berdasarkan nilai/derajat keanggotaannya.

• Contoh : Fuzzy C-Means, Gaussian Mixture

Hierarchical Clustering

Hierarchical Clustering

• Clustering dengan pendekatan hirarki mengelompokkan data yang memiliki kemiripan karakteristik dalam hirarki yang sama dan yang tidak mirip dalam hirarki yang berbeda.

Metode

Hierarchical Clustering

Divisive

Top to down division (1 to N cluster)

Agglomerative

Down to top merge (N to k cluster)

Algoritma Agglomerative

Clustering

1. Mulai dengan N cluster, setiap cluster mengandung entiti tunggal dan sebuah matriks simetrik dari jarak (similarities) D = {dik} dengan tipe NxN.

2. Cari matriks jarak untuk pasangan cluster yang terdekat (paling mirip). Misalkan jarak antara cluster U dan V yang paling mirip adalah duv.

3. Gabungkan cluster U dan V. Label cluster yang baru dibentuk dengan (UV).

Algoritma Agglomerative

Clustering (lanjutan)

Update entries pada matrik jarak dengan cara :• Hapus baris dan kolom yang bersesuaian dengan

cluster U dan V• Tambahkan baris dan kolom yang memberikan

jarak-jarak antara cluster (UV) dan cluster-cluster yang tersisa.

4. Ulangi langkah 2 dan 3 sebanyak (N-1) kali. (Semua objek akan berada dalam cluster tunggal setelah algoritma berahir). Catat identitas dari cluster yang digabungkan dan tingkat-tingkat (jarak atau similaritas) di mana penggabungan terjadi.

Proses Clustering

Jarak Antar Cluster

Single Linkage

Complete Linkage

Average Linkage

Contoh (Single Linkage)

x yp1 0.40 0.53p2 0.22 0.38p3 0.35 0.32p4 0.26 0.19p5 0.08 0.41p6 0.45 0.30

Jarak Euclidean

Matriks Jarak

p1 0p2 0.23 0p3 0.22 0.15 0p4 0.37 0.20 0.15 0p5 0.34 0.14 0.28 0.29 0p6 0.23 0.25 0.11 0.22 0.39 0

p1 p2 p3 p4 p5 p6

p1 0p2 0.24 0(p3, p6) 0.22 0.15 0p4 0.37 0.20 0.15 0p5 0.34 0.14 0.28 0.29 0

p1 p2 (p3, p6) p4 p5

dist( (p3, p6), p1 ) = MIN ( dist(p3, p1) , dist(p6, p1) ) = MIN ( 0.22 , 0.23 )

= 0.22

p1 0(p2, p5) 0.24 0(p3, p6) 0.22 0.15 0p4 0.37 0.20 0.15 0

p1 (p2, p5) (p3, p6) p4

dist( (p3, p6), (p2, p5) ) = MIN ( dist(p3, p2) , dist(p6, p2), dist(p3, p5), dist(p6, p5) ) = MIN ( 0.15 , 0.25, 0.28, 0.39 )

= 0.15 

p1 0(p2, p5, p3, p6) 0.22 0

p4 0.37 0.15 0p1 (p2, p5, p3, p6) p4

p1 0(p2, p5, p3, p6, p4) 0.22 0

p1 (p2, p5, p3, p6, p4)

top related