minggu 6 clustering.pdf
TRANSCRIPT
ClusteringAli Ridho Barakbah
Soft Computation Research Group, EEPIS-ITS
Workshop Data Mining18-20 Juli 2006
Jurusan Teknologi InformasiPoliteknik Elektronika Negeri Surabaya
What is cluster?
a collection of objects which are “similar” between them and are
Soft Computation Research Group, EEPIS-ITS
“dissimilar” to the objects belonging to other clusters
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/index.html
What is clustering?
the process of organizing objects into groups whose members are
Soft Computation Research Group, EEPIS-ITS
into groups whose members are similar in some way
http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/index.html
Ilustrasi clustering
?clustering
Soft Computation Research Group, EEPIS-ITS
?
Ilustrasi clustering
Soft Computation Research Group, EEPIS-ITS
Similaritas berdasarkan warna
Ilustrasi clustering
Soft Computation Research Group, EEPIS-ITS
Similaritas berdasarkan bentuk
Ilustrasi clustering
Soft Computation Research Group, EEPIS-ITS
Similaritas berdasarkan jarak
Clustering vs Classification
Classification Clustering
Data supervised unsupervised
Soft Computation Research Group, EEPIS-ITS
Data supervised unsupervised
Label Ya Tidak
Analisa hasil Error ratio Variance
Classification(kasus sederhana)
Umur Kegemukan Hipertensi
muda gemuk Tidak
Data penyakit hipertensi
label
Soft Computation Research Group, EEPIS-ITS
muda sangat gemuk Tidak
paruh baya gemuk Tidak
paruh baya terlalu gemuk Ya
tua terlalu gemuk Ya
Supervised data
Penyelesaian dengan Decision Tree
Gemuk?gemuk sangat
gemuk
terlalugemuk
Soft Computation Research Group, EEPIS-ITS
Tidak Tidak Ya
Classification(kasus sederhana)
Kegemukan
sangat
terlalugemuk
ya
Soft Computation Research Group, EEPIS-ITS
Umurmuda paruh baya
gemuk
gemuk
tua
tidak
Data penyakit hipertensi
Clustering(kasus sederhana)
Umur Kegemukan
muda gemuk
Data penyakit hipertensi
tidak ada
Soft Computation Research Group, EEPIS-ITS
muda sangat gemuk
paruh baya gemuk
paruh baya terlalu gemuk
tua terlalu gemuk
Unsupervised data
label
Clustering(kasus sederhana)
Kegemukan
sangat
terlalugemuk
Soft Computation Research Group, EEPIS-ITS
Umurmuda paruh baya
gemuk
gemuk
tua
Data penyakit hipertensi
Dikelompokkan dengan cara (algoritma) tertentu berdasarkan similaritas tertentu
Karakteristik clustering
• Partitioning clustering• Hierarchical clustering
Soft Computation Research Group, EEPIS-ITS
• Overlapping clustering• Hybrid
Partitioning clustering
• Disebut juga exclusive clustering• Setiap data harus termasuk ke cluster tertentuMemungkinkan bagi setiap data yang
Soft Computation Research Group, EEPIS-ITS
• Memungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster yang lain
• Contoh: K-means, residual analysis
Overlapping clustering
• Setiap data memungkinkan termasuk ke beberapa cluster
• Data mempunyai nilai keanggotaan
Soft Computation Research Group, EEPIS-ITS
Data mempunyai nilai keanggotaan (membership) pada beberapa cluster
• Contoh: Fuzzy C-means, Gaussian Mixture
Hierarchical clustering
• Setiap data harus termasuk ke cluster tertentu
• Suatu data yang termasuk ke cluster tertentu pada suatu tahapan proses, tidak
Soft Computation Research Group, EEPIS-ITS
tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain
• Contoh: Single Linkage, Centroid Linkage, Complete Linkage, Average Centroid
Hybrid
Mengawinkan karakteristik dari partitioning, overlapping dan
Soft Computation Research Group, EEPIS-ITS
partitioning, overlapping dan hierarchical
Algoritma-algoritma clustering
• K-means• Single Linkage• Centroid Linkage
Soft Computation Research Group, EEPIS-ITS
Centroid Linkage• Complete Linkage• Average Linkage• dll
K-means
• Termasuk partitioning clustering yang memisahkan data ke k daerah bagian yang terpisah
• K-means algorithm sangat terkenal karena kemudahan dan kemampuannya untuk mengklaster data besar dan data outlier dengan
Soft Computation Research Group, EEPIS-ITS
mengklaster data besar dan data outlier dengan sangat cepat
• Setiap data harus termasuk ke cluster tertentu• Memungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster yang lain
Algoritma K-means1. Tentukan k sebagai jumlah cluster yang ingin
dibentuk2. Bangkitkan k centroids (titik pusat cluster) awal
secara random3. Hitung jarak setiap data ke masing-masing
centroids
Soft Computation Research Group, EEPIS-ITS
centroids4. Setiap data memilih centroids yang terdekat5. Tentukan posisi centroids baru dengan cara
menghitung nilai rata-rata dari data-data yang memilih pada centroid yang sama
6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama tidak sama.
Algoritma K-means
Soft Computation Research Group, EEPIS-ITS
Karakteristik K-means
• K-means sangat cepat dalam proses clustering• K-means sangat sensitif pada pembangkitan centroids awal secara random
• Memungkinkan suatu cluster tidak mempunyai anggota
Soft Computation Research Group, EEPIS-ITS
anggota• Hasil clustering dengan K-means bersifat tidak unik (selalu berubah-ubah) - terkadang baik, terkadang jelek.
• K-means sangat sulit untuk mencapai global optimum
Ilustasi kelemahan K-means
Soft Computation Research Group, EEPIS-ITS
Hierarchical clustering
• Single Linkage• Centroid Linkage
Soft Computation Research Group, EEPIS-ITS
• Complete Linkage• Average Linkage
Direction of hierarchy
• Divisive– 1 cluster to k clusters– Top to down division
Soft Computation Research Group, EEPIS-ITS
Top to down division• Agglomerative
– N clusters to k clusters– Down to top merge
Algoritma Hierarchical clustering
1. Tentukan k sebagai jumlah cluster yang ingin dibentuk
2. Setiap data dianggap sebagai cluster. Kalau N=jumlah data dan n=jumlah cluster, berarti ada n=N
Soft Computation Research Group, EEPIS-ITS
ada n=N.3. Hitung jarak antar cluster4. Cari 2 cluster yang mempunyai jarak antar
cluster yang paling minimal dan gabungkan (berarti n=n-1)
5. Jika n>k, kembali ke langkah 3
Algoritma Hierarchical clustering
54
3
54
3
54
3
Soft Computation Research Group, EEPIS-ITS
1 2
1 2
1 2 1 2
3 4 5 1 2 3 4 5 1 2 3 4 5
Similarity between clusters?
• Single Linkage� Minimum distance between cluster
• Centroid Linkage � Centroid distance between cluster
Soft Computation Research Group, EEPIS-ITS
� Centroid distance between cluster• Complete Linkage � Maximum distance between cluster
• Average Linkage � Average distance between cluster
Pengukuran jarak10
9
8
7
6
cluster 2Berapa jarak cluster 1 ke cluster 2
6
54
Soft Computation Research Group, EEPIS-ITS
0 1 2 3 4 5 6 7 8 9 10
5
4
3
2
1cluster 1
cluster 2
?1
3
2
Single Linkage10
9
8
7
6
cluster 2Jarak cluster 1 ke cluster 2
6
54
Soft Computation Research Group, EEPIS-ITS
0 1 2 3 4 5 6 7 8 9 10
5
4
3
2
1 cluster 1
=Jarak data 3 ke
data 41
3
2
Centroid Linkage10
9
8
7
6
cluster 2Jarak cluster 1 ke
cluster 2
6
54
centroid cluster 2
centroid
Soft Computation Research Group, EEPIS-ITS
0 1 2 3 4 5 6 7 8 9 10
5
4
3
2
1 cluster 1
=Jarak centroid cluster 1 ke
centroid cluster 21
3
2
centroid cluster 1
Complete Linkage10
9
8
7
6
cluster 2Jarak cluster 1 ke cluster 2
6
54
Soft Computation Research Group, EEPIS-ITS
0 1 2 3 4 5 6 7 8 9 10
5
4
3
2
1 cluster 1
=Jarak data 1 ke
data 61
3
2
Average Linkage10
9
8
7
6
cluster 2 Jarak cluster 1ke cluster 2
=∑Jarak antar data
6
54
Soft Computation Research Group, EEPIS-ITS
0 1 2 3 4 5 6 7 8 9 10
5
4
3
2
1 cluster 1
-------------------------n x m
Dimana:n=jumlah data pada cluster 1m=jumlah data pada cluster 21
3
2
Hierarchical Clustering & Dataset• Single Linkage
Metode ini sangat cocok untuk dipakai pada kasus shape independent clustering, karena kemampuannya untuk membentuk pattern tertentu dari cluster. Untuk kasus condensed clustering, metode ini tidak bagus.
• Centroid LinkageMetode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi, metode ini tidak cocok untuk data yang mengandung outlier.
Soft Computation Research Group, EEPIS-ITS
Akan tetapi, metode ini tidak cocok untuk data yang mengandung outlier.
• Complete LinkageMetode ini sangat ampuh untuk memperkecil variance within cluster karena melibatkan centroid pada saat penggabungan antar cluster. Metode ini juga baik untuk data yang mengandung outlier.
• Average LinkageMetode ini relatif yang terbaik dari metode-metode hierarchical. Namun, ini harus dibayar dengan waktu komputasi yang paling tinggi dibandingkan dengan metode-metode hierarchical yang lain.
Penghitungan jarak(Euclidian distance)
50
40
30 a )()( 22
22
222
+=
+=
cba
cba
Soft Computation Research Group, EEPIS-ITS
30
20
10
0 10 20 30 40 50
a
bc
31.6281000
100900
)10()30(
)2030()1040(22
22
==
+=
+=
−+−=
Penghitungan jarakdengan vector
50
40
30 aT2
=
2010
1T
=
3040
2T
=
−
=−=
1030
2010
3040
12 TTT
Soft Computation Research Group, EEPIS-ITS
30
20
10
0 10 20 30 40 50
a
bcT1
102030
[ ] 10001009001030
1030
'
=+=
=
×= TTD
628.311000 === Da