finalversione-learningcontent

44
DATA MINING: Mengenal Fungsi Utama dalam Klasifikasi, Clustering dan Association Rule DIKTAT ITI 458 Data Mining Oleh: Sani Susanto, PhD Jurusan Teknik Industri Fakultas Teknologi Industri Universitas Katolik Parahyangan 2007

Upload: martin-soutihonhalomoan-sibarani

Post on 11-Feb-2015

164 views

Category:

Documents


28 download

DESCRIPTION

Finalversione-learningcontent

TRANSCRIPT

Page 1: Finalversione-learningcontent

DATA MINING: Mengenal Fungsi Utama dalam Klasifikasi, Clustering dan

Association Rule

DIKTAT ITI 458 Data Mining

Oleh: Sani Susanto, PhD

Jurusan Teknik Industri Fakultas Teknologi Industri

Universitas Katolik Parahyangan 2007

Page 2: Finalversione-learningcontent

Kata Pengantar Puji syukur penulis haturkan kepada Tuhan yang Maha Pengasih atas selesainya penulisan content e-learning bagi mata kuliah ITI 458 Data Mining ini. Mata kuliah ini merupakan mata kuliah pilihan pada Jurusan Teknik Industri, Fakultas Teknologi Industri, Universitas Katolik Parahyangan, Bandung. Secara khusus penulis berterima kasih pada Bapak Dr. Budi Husodo Bisowarno, Dekan Fakultas Teknologi Industri, Universitas Katolik Parahyangan periode April 2004 – Oktober 2007 yang dalam usia mudanya senantiasa gigih mengusahakan peroleh aneka hibah bantuan bai Universitas Katolik Parahyangan. Tanpa kerja kerasnya, dalam mengupayakan perolehan Program Hibah Kompetisi K-1, mustahil akan terwujud. Penulispun ingin menyampaikan ucapan terima kasihnya kepada kolega penulis yaitu Bapak Thedy Yogasara, MEng.Sc, Bapak Yogi Yusuf Wibisono, MT dan Bapak Ali sadiyoko, MT yang banyak terlibat dalam Pelaksanaan Program Hibah Kompetisi K-1. Ucapan terima kasih yang sama penulis haturkan kepada segenap kolega di Juusan Teknik Industri Universitas Katolik Parahyangan atas segenap diskusi maupun bantuannya secar langsung maupun tidaklangsung. Tak lupa pula penulis menghaturkan terima kasih atas kesabaran istri penulis (Julianti Kasih), dan kedua anak penulis (Griselda Raisa Susantodan Hans Adrian Susanto) yang telah tersita waktu kebersamaannya dalam keluarga, karena penyelesaian materi ini. Bandung, 23 November 2007 Hormat kami, Sani Susanto, PhD

i

Page 3: Finalversione-learningcontent

Daftar Isi Kata Pengantar i Daftar Isi ii Bab-1 Pengantar 1 1.1 Pengertian Data Mining 1 1.2 Fungsi-fungsi dalam data Mining 1 Bab 2 Fungsi Mayor Pertama Data Mining: Klasifikasi 3 2.1 Pengantar 3 2.2 Pengenalan beberapa istilah dasar 4 2.3 Prototipe masalah klasifikasi dan Pengetahuan yang dihasilkannya 4 2.4 Algoritma Klasifikasi: CART (Classification and Regression Trees) 7 2.5 Klasifikasi: Pengembangan Selanjutnya 20 2.6 Klasifikasi: Epilog 20 2.7 Soal Latihan 20 Bab 3 Fungsi Mayor Kedua dari Data Mining: Pengelompokan 22 3.1 Pengantar 22 3.2 Pengenalan beberapa istilah dasar 23

3.3 Prototipe masalah Pengelompokan dan Pengetahuan yang dihasilkannya 23 3.4 Algoritma Pengelompokan: k-means 24 3.5 Pengelompokan: Pengembangan Selanjutnya 28

3.6 Pengelompokan: Epilog 29 3.7 Soal Latihan 29

Bab 4 Fungsi Mayor Ketiga Data Mining: Aturan Asosiasi 30 4.1 Pengantar 30 4.2 Pengenalan beberapa istilah dasar 31

4.3 Prototipe masalah Aturan Asosiasi dan Pengetahuan yang dihasilkannya 33 4.4 Algoritma Aturan Asosiasi: MBA (Market Basket Analysis) 34 4.5 Aturan Asosiasi: Pengembangan Selanjutnya 37 4.6 Aturan Asosiasi: Epilog 38 4.7 Soal Latihan 38

Daftar Pustaka 41

ii

Page 4: Finalversione-learningcontent

Bab-1 Pengantar Istilah Gelombang Ketiga atau Gelombang Informasi pertama kali terdengar sekitar seperempat abad yang lalu. Futuris Alvin Tofflerlah yang memperkenalkannya melalui bukunya “The Third Wave”. Buku ini telah diterjemahkan kedalam pelbagai bahasa. Sekalipun akan, sedang, atau bahkan, telah muncul gelombang–gelombang berikutnya, namun satu hal yang pasti bahwa gelombang ketiga ini belum berlalu, melainkan tetap ada, hanya mungkin disertai dengan hadirnya gelombang yang lain, yaitu Gelombang Keempat atau Gelombang Pengetahuan. Diakui atau tidak, Teknologi Internet telah mengubah dunia. Tentu masih lekat dalam ingatan kita masa-masa sebelum teknologi ini memasyarakat hingga ke pelosok-pelosok planet Bumi ini. Pada masa itu kegiatan mencari, memperoleh atau memiliki informasi adalah hal yang tidak mudah diusahakan. Mengapa demikian? Karena bahan baku informasi, yaitu data, pun sulit dicari, sulit diperoleh terlebih lagi untuk dimiliki. Hal ini berbeda sekali dengan yang kita hadapi dewasa ini. Pada masa kini, kita benar-benar diterpa “tsunami data”. Data tersedia secara luar biasa berlimpahnya. Sedemikian berlimpahnya data, bahkan disertai dengan sedemikian mudah cara memperolehnya (sekalipun mungkin tidak untuk kita miliki), membuat kita semakin tertantang untuk bertanya, pengetahuan apakah yang dapat dihasilkan dari data atau informasi tersebut. 1.1 Pengertian Data Mining Istilah Data Mining memiliki beberapa padanan istilah, seperti Knowledge Discovery ataupun Pattern Recognition. Kedua istilah padanan ini sebenarnya memiliki ketepatannya masing-masing. Istilah Knowledge Discovery atau Penemuan Pengetahuan tepat digunakan karena tujuan utama dari Data Mining memang untuk mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data. Istilah Pattern Recognition atau Pengenalan Pola pun tepat untuk digunakan karena memang pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga masih perlu digali dari dalam bongkahan data yang tengah kita hadapi. Bila dalam tulisan ini digunakan istilah data Mining, hal ini lebih didasarkan pada lebih populernya istilah ini bila hendak ditujukan pada kegiatan penggalian pengetahuan dari data. Jadi apakah sebenarnya Data Mining itu? Banyak definisi (definition) bagi istilah ini, dan belum ada yang dibakukan atau disepakati semua pihak. Namun demikian, istilah ini memiliki hakekat (notion) sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali atau menambang pengetahuan dari data atau informasi yang kita miliki. Kegiatan inilah yang menjadi garapan atau perhatian utama dari disiplin ilmu Data Mining. 1.2 Fungsi-fungsi dalam data Mining Lalu fungsi atau subkegiatan apa sajakah yang ada dalam Data Mining, dalam rangka menemukan, menggali atau menambang pengetahuan tersebut? Mengacu kepada Larose (2005), terdapat enam fungsi dalam Data Mining, yaitu:

1

Page 5: Finalversione-learningcontent

− fungsi deskripsi (Description), − fungsi estimasi (Estimation) − fungsi prediksi (Prediction) − fungsi klasifikasi (Classification) − fungsi pengelompokan (Classification) − fungsi asosiasi (Association)

Mengacu kepada Berry dan Browne (2006), keenam fungsi Data Mining tersebut dapat dipilah menjadi:

− fungsi minor atau fungsi tambahan, yang meliputi ketiga fungsi yang pertama, yaitu deskripsi, estimasi dan prediksi

− fungsi mayor atau fungsi utama, yang meliputi ketiga fungsi berikutnya, yaitu klasfikasi, pengelompokan dan asosiasi.

Tulisan ini lebih menitikberatkan pada pembahasan ketiga fungsi mayor dari Data Mining. Mengapa demikian? Hal ini didasarkan pada dua alasan berikut ini. Alasan pertama, ketiga fungsi minor itu sebenarnya secara tradisional telah termasuk kedalam bagian dari bahan pengajaran mata kuliah Statistika Dasar. Fungsi deskripsi dibahas pada topik Statistika Deskriptif. Fungsi Estimasi dibahas pada topik Estimasi. Fungsi Prediksi dibahas pada topik Analisis Regresi. Alasan kedua, sesuai status fungsinya, yaitu fungsi mayor atau fungsi utama Data Mining, maka sepantasnyalah bila pengenalan dan pembahasan Data Mining lebih dititikberatkan kepadanya.

2

Page 6: Finalversione-learningcontent

Bab 2 Fungsi Mayor Pertama Data Mining: Klasifikasi

2.1 Pengantar Misalkan kepada anda diberikan data tentang 8 orang nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Data tersebut meliputi besarnya tabungan (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya asset (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya pendapatan per tahun (dalam ribuan US$, yang berjenis numerik, dan berskala rasio) dan, resiko kredit (yang berjenis kategorial: resiko baik, atau buruk). Data selengkapnya seperti disajikan dalam Tabel-2.1 berikut ini:

Tabel-2.1 Data Tabungan, Asset, Pendapatan dan Resiko Kredit Nasabah Bank Bhatara Putra

Nasabah Tabungan Asset Pendapatan Resiko KreditA Sedang Tinggi 75 Baik B Rendah Rendah 50 Buruk C Tinggi Sedang 25 Buruk D Sedang Sedang 50 Baik E Rendah Sedang 100 Baik F Tinggi Tinggi 25 Baik G Rendah Rendah 25 Buruk H Sedang Sedang 75 Baik

Data pada Tabel-2.1 berasal dari masa lampau, sehingga bagi kita ia menjadi data historis atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau, artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis seperti yang tertera pada Tabel-2.1 di atas? Kita akan mencoba menyimak, merenungkan dan mempelajari data pada tabel tersebut. Diharapkan, kelak sekiranya pada masa mendatang ada nasabah kesembilan, kesepuluh, kesebelas, dan seterusnya, kita dapat mengklasifikasikan (menggolongkan) resiko kredit dari para nasabah tersebut, apabila diketahui tabungan, asset dan pendapatan mereka. Bab ini akan membahas fungsi mayor pertama dari Data Mining, yaitu klasifikasi. Bahasan akan mencakup:

− Pengenalan beberapa istilah dasar, bagian ini akan memudahkan kita mengikuti bahasan berikutnya tentang masalah klasifikasi,

− Prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya, bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam mendapatkan gambaran tentang apa sebenarnya yang menjadi input serta pengetahuan apa yang menjadi output dari fungsi mayor klasifikasi. Selanjutnya terhadap pengetahuan yang menjadi produk dari fungsi mayor Klasifikasi akan diberikan interpretasinya,

− Algoritma Klasifikasi, bagian ini membahas detail langkah-langkah yang yang dijalani oleh salah satu algoritma yang digunakan Data Mining dalam menjalankan fungsi mayor pertamanya, yaitu Algoritma CART (Classification and Regression Trees), dan

3

Page 7: Finalversione-learningcontent

− Pengembangan Selanjutnya, bagian ini berisi informasi yang dapat digunakan bagi para pembaca yang tertarik untuk mempelajari algoritma-algoritma lain yang dapat menjalankan fungsi mayor Klasifikasi

2.2 Pengenalan beberapa istilah dasar Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut dengan istilah itu? Disebut data latihan (training data), karena kita akan berlatih dari data tersebut untuk mendapatkan pengetahuan. Disebut data pengalaman, karena data tersebut berasal dari masa lampau, dan bukankah masa lampau adalah pengalaman bagi kita? Algoritma Klasifikasi akan menggunakan data latihan untuk, sesuai pengertian Data Mining, menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam Pengklasifikasian? Pengetahuan untuk menggolongkan resiko kredit seorang nasabah pada masa mendatang berdasarkan tabungan, asset dan pendapatan mereka. Data tabungan, asset dan pendapatan, yang akan dijadikan dasar untuk menentukan resiko kredit, disebut variabel prediktor (predictor variable). Adapun resiko kredit, yang akan ditentukan berdasarkan variabel prediktor ini, disebut variabel tujuan (target variable). Jadi secara ringkas, pada Pengklasifikasian, sebuah rekord akan diklasifikasikan kedalam salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan, berdasarkan nilai-nilai variabel perdiktornya. Masalah Pengklasifikasian secara ringkas dapat digambarkan sebagai berikut:

− berangkat dari data latihan yang tersedia, misalnya seperti pada Tabel-2.1, − dilakukan pengolahan terhadap data latihan dengan menggunakan algoritma

Pengklasifikasian, − berakhir dengan dihasilkannya sebuah pengetahuan yang direpresentasikan

dalam bentuk sebuah diagram, yang biasa disebut pohon keputusan (decision tree)

Demikianlah, kiranya beberapa istilah dasar yang akan sering digunakan dalam memahami fungsi mayor Klasifikasi menjadi jelas bagi para pembaca.

2.3 Prototipe masalah klasifikasi dan Pengetahuan yang dihasilkannya Gambar-2.1 herikut ini adalah contoh dari pohon keputusan, sebagai jawab bagi masalah pengklasifikasian dengan data latihan seperti tertera pada Tabel-2.1, yang dalam hal ini variabel prediktornya adalah asset, tabungan dan pendapatan, adapun variabel targetnya adalah resiko kredit. Pohon keputusan pada Gambar-2.17 itulah yang merupakan pengetahuan yang dihasilkan dari fungsi Pengklasifikasian. Sebelum kita pelajari cara membaca gambar ini sehingga didapatkan interpretasinya, akan diperkenalkan terlebih dahulu pengertian

4

Page 8: Finalversione-learningcontent

lambang-lambang yang digunakan pada gambar tersebut. Pada gambar tersebut terdapat 2 (dua) jenis bentuk noktah. Pertama, noktah yang berbentuk elips, yang disebut juga dengan noktah keputusan, noktah jenis ini adalah noktah yang kelak masih akan bercabang, karena pada noktah ini suatu rekord (misalnya nasabah) belum dapat ditentukan klasifikasinya (apakah nasabah ini mempunyai resiko kredit baik atau buruk). Noktah keputusan yang pertama biasa disebut juga noktah dasar. Kedua, noktah yang berbentuk persegi panjang, yang disebut juga dengan noktah terminasi, noktah jenis ini adalah noktah tidak lagi akan bercabang, karena pada noktah ini suatu rekord (misalnya nasabah) sudah dapat ditentukan klasifikasinya.

Noktah DasarAsset=Rendah

vs Asset={Sedang, Tinggi}

Noktah TerminasiResiko Buruk(Rekord B, G)

Noktah Keputusan A(Rekord A,C,D,E,F,H)

Noktah Keputusan BResiko Baik(Rekord C,F)

Noktah TerminasiResiko Baik

(Rekord A,D,E,H)

Noktah Terminasi Resiko Baik (Rekord F)

Noktah TerminasiResiko Buruk(Rekord C)

Asset=Sedang Asset=Tinggi

Tabungan=Tinggi Tabungan={Rendah,Sedang}

Asset-{Sedang, Tinggi} Asset-Rendah

Gambar-2.1 Pohon Keputusan bagi Masalah Pengklasifikian Data Nasabah Bank Batara Putra

5

Page 9: Finalversione-learningcontent

Bagaimana membaca gambar dari pohon keputusan yang dihasilkan ole suuatu Algoritma Klasifikasi? Gambar-2.1 dapat dibaca sebagai berikut. Pertama-tama pada node dasar, semua rekord nasabah (A,B,C,D,E,F,G,H) sama sekali belum mendapat klasifikasi. Terhadap seluruh rekord ini pertama-tama diinstruksikan untuk ditanyakan besarnya asset. Bila asset sebuah rekord termasuk rendah, maka langsung saja rekord ini diklasifikasikan sebagai nasabah dengan resiko kredit yang buruk, dan noktah bagi rekord yang termasuk dalam klasifikasi ini berjenis noktah terminasi, dan sesuai namanya, noktah ini tak akan pernah bercabang lagi. Rekord yang dicakup oleh noktah terminasi ini adalah rekord atau nasabah B dan G. Bila asset sebuah rekord termasuk sedang atau tinggi, maka rekord ini belum berhasil diklasifikasikan resiko kreditnya (apakah baik atau buruk), dan noktah bagi rekord yang belum memiliki klasifikasi berjenis noktah keputusan, dan karena ini adalah noktah keputusan pertama yang dihasilkan, maka noktah ini dapat saja disebut noktah keputusan A, yang tercakup kedalam noktah ini adalah rekord A,C,D,E,F,H. Selanjutnya, terhadap Noktah keputusan A ini dilakukan percabangan dengan menanyakan besarnya tabungan. Bila tabungan sebuah rekord termasuk rendah atau sedang, maka langsung saja rekord ini diklasifikasikan sebagai nasabah dengan resiko kredit yang baik, dan noktah bagi rekord yang termasuk dalam klasifikasi ini berjenis noktah terminasi. Rekord yang dicakup oleh noktah terminasi ini adalah rekord atau nasabah A,D,E dan H. Bila tabungan sebuah rekord termasuk tinggi, maka rekord ini belum berhasil diklasifikasikan resiko kreditnya (apakah baik atau buruk), dan noktah bagi rekord yang belum memiliki klasifikasi berjenis noktah keputusan, dan karena ini adalah noktah keputusan kedua yang dihasilkan, maka noktah ini dapat saja disebut noktah keputusan B, yang tercakup kedalam noktah ini adalah rekord C dan F. Selanjutnya, terhadap Noktah keputusan B ini dilakukan percabangan dengan kembali menanyakan besarnya asset. Bila asset sebuah rekord termasuk tinggi, maka rekord ini, yaitu nasabah F, langsung diklasifikasikan sebagai nasabah dengan resiko kredit yang baik, dan noktah bagi rekord yang termasuk dalam klasifikasi ini berjenis noktah terminasi, sehingga tak akan pernah bercabang lagi.. Bila asset sebuah rekord termasuk sedang, maka rekord ini, yaitu nasabah C, langsung diklasifikasikan sebagai nasabah dengan resiko kredit yang buruk, dan noktah bagi rekord yang termasuk dalam klasifikasi ini berjenis noktah terminasi, sehingga tak akan pernah bercabang lagi. Demikianlah, kiranya

− melalui pembahasan prototipe masalah klasifikasi, menjadi jelas bagi kita apa itu sebenarnya masalah klasifikasi, dan

− melalui pembahasan interpretasi pengetahuan yang dihasilkan oleh fungsi mayor klasifikasi, menjadi jelas bagi kita bagaimana memaknai pengetahuan yang dihasilkan dari masalah ini.

6

Page 10: Finalversione-learningcontent

2.4 Algoritma Klasifikasi: CART (Classification and Regression Trees) Bila kita membuat kilas balik terhadap pembicaraan kita pada bab ini, maka sebenarnya yang telah kita alami dapat diringkas sebagai berikut:

− pertama, kita memiliki data dari 8 nasabah seperti tertera pada Tabel-2.1, dan kita ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang potensial menjadi nasabah kesembilan, kesepuluh, kesebelas dan selanjutnya, sehingga dengan mengetahui asset, tabungan dan pendapatan mereka, kita dapat menentukan resiko kredit mereka

− kedua, data itu kelak akan kita jadikan input bagi suatu algoritma, yang saat ini belum kita ketahui algoritma apakah itu

− ketiga, sebagai keluaran dari algoritma, yang saat ini belum kita ketahui itu, maka kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pohon keputusan

Bagian ini akan membahas detail dari salah satu algoiritma yang dapat menghasilkan pohon keputusan. Algoritma itu disebut dengan Classification and Regression Trees yang kerap kali disngkat menjadi CART. Ciri khas dari algoritma CART ini adalah noktah keputusan yang selalu bercabang dua atau bercabang biner. Algoritma CART pertama kali digagas oleh Leo Breiman, Jerome Friedman, Richard Olshen dan Charles Stone (dalam Larose (2005)). Mari kita terapkan algoritma CART terhadap data pada Tabel-2.1. Langkah-langkah pada Algoritma CART adalah sebagai berikut:

− Langkah Pertama: susunlah calon cabang (candidate split), penyusunan ini dilakukan terhadap seluruh, sekali lagi seluruh, variabel prediktor, secara lengkap (exhaustive). Daftar yang berisi calon cabang ini disebut Daftar Calon Cabang Mutakhir,

− Langkah Kedua: menilai kinerja dari keseluruhan calon cabang yang ada pada Daftar Calon Cabang Mutakhir dengan jalan menghitung nilai besaran kesesuaian, ( )tsΦ ,

− Langkah Ketiga: menentukan calon cabang mana yang akan benar-benar dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian ( )tsΦ terbesar. Setelah itu gambarkanlah percabangan. Jika tidak lagi terdapat

noktah keputusan, pelaksanaan algoritma CART dihentikan. Jika masih terdapat noktah keputusan, maka pelaksanaan algoritma dilanjutkan dengan kembali ke Langkah-2, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang, hingga didapatkan Daftar Calon Cabang Mutakhir yang baru

Berikut ini adalah contoh penerapan Algoritma CART pada masalah klasifikasi terhadap data dari 8 nasabah pada Tabel-4.1.

7

Page 11: Finalversione-learningcontent

Langkah Pertama Algoritma CART

Apa yang menjadi langkah pertama Algoritma CART? Langkah pertama dari Algoritma CART adalah menyusun calon cabang (candidate split), penyusunan ini dilakukan terhadap seluruh, sekali lagi seluruh, variabel prediktor, secara lengkap (exhaustive). . Pada masalah kita, yang menjadi variabel prediktor seluruhnya adalah tabungan, asset dan pendapatan. Mari kita susun calon cabang yang lengkap untuk masing-masing variabel prediktor ini. Perhatikanlah bahwa pembuatan calon cabang akan senantiasa patuh terhadap ciri khas dari Algoritma CART, yaitu adanya noktah keputusan yang selalu bercabang dua atau bercabang biner. Calon cabang untuk variabel prediktor tabungan selengkapnya adalah sebagai berikut:

− tabungan = Rendah dan tabungan = (Sedang, Tinggi), − tabungan = Sedang dan tabungan = (Rendah, Tinggi), − tabungan = Tinggi dan tabungan = (Rendah, Sedang).

Calon cabang untuk variabel prediktor asset selengkapnya adalah sebagai berikut:

− asset = Rendah dan asset = (Sedang, Tinggi), − asset = Sedang dan asset = (Rendah, Tinggi), − asset = Tinggi dan asset = (Rendah, Sedang).

Terhadap variabel prediktor pendapatan yang sifatnya numerik, dapat diusulkan selengkapnya calon cabang berikut ini:

− pendapatan 25 000 dan pendapatan > 25 000, ≤− pendapatan 50 000 dan pendapatan > 50 000, ≤− pendapatan 75 000 dan pendapatan > 75 000.. ≤

Mengingat ciri khas dari Algoritma CART yang setiap noktah keputusannya bercabang biner, maka calon cabang akan diberi nama calon cabang kiri dan calon cabang kanan. Selengkapnya keseluruhan calon cabang itu disajikan dalam Tabel-2.2 berikut .

Tabel-2.2 Daftar Calon Cabang Mutakhir Masalah Nasabah Bank Bhatara Putra (Iterasi-1)

Nomor Calon Cabang Calon Cabang Kiri Calon Cabang Kanan

1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 4 asset = Rendah asset = (Sedang, Tinggi) 5 asset = Sedang asset = (Rendah, Tinggi) 6 asset = Tinggi asset = (Rendah, Sedang) 7 pendapatan ≤ 25 000 pendapatan > 25000 8 pendapatan ≤ 50 000 pendapatan > 50 000 9 pendapatan ≤ 75 000 pendapatan > 75000

8

Page 12: Finalversione-learningcontent

Mungkin ada pertanyaan yang mengganggu kita, yaitu mengapa kita perlu membubuhkan kata ”calon” pada kata ”calon cabang”? Ya, kata itu memang diperlukan, karena tidak seluruh dari kesembilan calon cabang yang tercantum pada Tabel-2.2, akan benar-benar menjadi cabang pada noktah keputusan. Lalu, bagaimana kita menentukan:

− calon cabang yang manakah yang akan benar-benar menjadi cabang dari noktah keputusan, dan

− calon cabang yang manakah yang tidak atau belum akan menjadi cabang dari noktah keputusan?

Hal ini akan dijawab pada langkah kedua Algoritma CART berikut ini.

Langkah Kedua Algoritma CART (Iterasi-1) Langkah kedua dari Algoritma ini akan menilai kinerja dari keseluruhan calon cabang yang ada pada Daftar Calon Cabang Mutakhir. Untuk saat ini Daftar Calon Cabang Mutakhir adalah seperti tertera pada Tabel-2.2. Lalu bagaimana mengukur kinerja masing-masing calon cabang yang terdaftar pada daftar ini? Kinerja dari setiap calon cabang akan diukur melalui ukuran yang disebut kesesuaian (goodness). Kesesuaian dari calon cabang s pada noktah keputusan t, dilambangkan dengan ( )tsΦ , didefinisikan sebagai:

( ) ( ) ( )∑=

−=Φkategorijumlah

jRLRL tjPtjPPPts

12 (Pers-3.1)

dalam hal ini Lt = calon cabang kiri dari noktah keputusan t (Pers-3.2)

Rt = calon cabang kanan dari noktah keputusan t (Pers-3.2)

latihandatakiricabangcalon

padarekordjumlahpadarekordjumlah L

LtP = (Pers-3.3)

latihandata

kiricabangcalonpadarekordjumlah

padarekordjumlah RR

tP = (Pers.-3.4)

( )t

tjtjP LL keputusannoktah

kiricabangcalon padarekordjumlah

padaiberkategorrekordjumlah= (Pers.-3.5)

( )t

tjtjP R

R keputusannoktahkanancabangcalon

padarekordjumlahpadaiberkategorrekordjumlah

= (Pers.-3.6)

Bila didefinsikan besaran:

( ) ( ) ( )∑=

−=kategorijumlah

jRL tjPtjPtsQ

1 (Pers-3.7)

maka berdasarkan persamaan (Pers.-3.1) didapatkan persamaan berikut ini: ( ) ( )tsPPts RL Φ=Φ 2 (Pers.-3.8)

9

Page 13: Finalversione-learningcontent

Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam Daftar Calon Cabang Mutakhir, yaitu Tabel-2.2, disajikan dalam Tabel-2.3.

Tabel-2.3 Perhitungan Nilai Kesesuaian untuk Calon Cabang 1,2,3,4,5,6,7,8,9

Nomor Calon

Cabang LP RP Resiko Kredit ( )LtjP ( )RtjP

RL PP2 ( )tsQ ( )tsΦ

1 3/8= 0.375 5/8= 0.625 Baik : 1/3= 0.333 4/5= 0.8 0.46875 0.933 0.4375 Buruk : 2/3= 0.667 1/5= 0.2 2 3/8= 0.375 5/8= 0.625 Baik : 3/3= 1 2/5= 0.4 0.46875 1.2 0.5625 Buruk : 0/3= 0 3/5= 0.6 3 2/8= 0.250 6/8= 0.75 Baik : 1/2= 0.5 4/6= 0.667 0.375 0.333 0.125 Buruk : 1/2= 0.5 2/6= 0.333 4 2/8= 0.250 6/8= 0.75 Baik : 0/2= 0 5/6= 0.833 0.375 1.667 0.625 Buruk : 2/2= 1 1/6= 0.167 5 4/8= 0.500 4/8= 0.5 Baik : 3/4= 0.75 2/4= 0.5 0.5 0.5 0.25 Buruk : 1/4= 0.25 2/4= 0.5 6 2/8= 0.250 6/8= 0.75 Baik : 2/2= 1 3/6= 0.5 0.375 1 0.375 Buruk : 0/2= 0 3/6= 0.5 7 3/8= 0.375 5/8= 0.625 Baik : 1/3= 0.333 4/5= 0.8 0.46875 0.933 0.4375 Buruk : 2/3= 0.667 1/5= 0.2 8 5/8= 0.625 3/8= 0.375 Baik : 2/5= 0.4 3/3= 1 0.46875 1.2 0.5625 Buruk : 3/5= 0.6 0/3= 0 9 7/8= 0.875 1/8= 0.125 Baik : 4/7= 0.571 1/1= 1 0.21875 0.857 0.1875

Buruk : 3/7= 0.429 0/1= 0

Untuk mendapatkan gambaran bagaimana caranya untuk mendapatkan Tabel-2.3, berikut ini adalah penjelasan terhadap perhitungan nilai kesesuaian, katakanlah bagi calon cabang nomor 4, yaitu calon cabang yang terdiri atas:

calon cabang kiri adalah asset = Rendah dan

calon cabang kanan adalah asset = (Sedang, Tinggi) Terdapat 2 buah rekord yang memenuhi syarat:

asset = Rendah yaitu rekord nomor B dan G (lihat Tabel-2.1), adapun jumlah data latihan yang dipertimbangkan saat ini adalah 8 rekord, yaitu rekord A,B,C,D,E,F,G dan H, sehingga dari persamaan (Pers.-3.3) didapat:

52.082

dibahastengahyangpadapadarekordjumlah4-kepada Rendah)(denganrekordjumlah

===

=keputusannoktahlatihandata

kiricabangcalonassetLP

Terdapat 6 buah rekord yang memenuhi syarat:

asset = (Sedang, Tinggi) yaitu rekord nomor A,C,D,E,F dan H (lihat Tabel-2.1), adapun jumlah data latihan yang dipertimbangkan saat ini adalah 8 rekord, yaitu rekord A,B,C,D,E,F,G dan H, sehingga dari persamaan (Pers.-3.4) didapat:

10

Page 14: Finalversione-learningcontent

75.086

dibahas tengah yang padapadarekordjumlah4-kepada)(denganrekordjumlah TinggiSedang,

===

=keputusan noktahlatihandata

kanancabangcalonassetRP

Dari 2 (dua) buah record yang memenuhi syarat

calon cabang kiri, yaitu asset = Rendah yaitu rekord B dan G :

− tak ada diantaranya yang memenuhi kategori resiko kredit = Baik, sehingga dari persamaan (Pers.-3.5) didapatkan :

( ) 020

dibahastengahyang padarekordjumlah4-kepadaBaik)(denganrekordjumlah

===

=t

tjP L keputusannoktahkiricabangcalonresiko

− keduanya memenuhi kategori resiko kredit = Buruk, sehingga dari persamaan

(Pers.-3.6) didapatkan :

( ) 122

dibahastengah yang padarekordjumlah4-kepadaBuruk)(denganrekordjumlah

===

=t

tjP L keputusannoktahkanancabangcalonresiko

Dari 6 (dua) buah record yang memenuhi syarat

calon cabang kanan, yaitu asset = (Sedang, Tinggi) yaitu rekord A,C,D,E,F, dan H :

− 5 rekord diantaranya, yaitu rekord A,D,E,F dan H, memenuhi kategori resiko kredit = Baik, sehingga dari persamaan (Pers.-3.5) didapatkan :

( ) 833.065

dibahas tengahyang padarekordjumlah4-kepadaBaik)(denganrekordjumlah

===

=t

tjP R keputusannoktahkanancabangcalonresiko

− 1 rekord diantaranya, yaitu rekords C, memenuhi kategori resiko kredit = Buruk,

sehingga dari persamaan (Pers.-3.6) didapatkan :

( ) 167.061

dibahastengah yang padarekordjumlah4-kepadaBuruk)(denganrekordjumlah

===

=t

tjP R keputusannoktahkanancabangcalonresiko

Selanjutnya didapatkan − nilai dari besaran

375.0)75.0)(25.0(22 ==RL PP

− nilai dari besaran (lihat persamaan (Pers.-3.7))

( ) ( ) ( ) 667.1167.01833.001

=−+−==−= ∑=

kategorijumlah

jRL tjPtjPtsQ

dan akhirnya didapatkan pula (dari persamaan (Pers.-3.8)): ( ) ( )tsPPts RL Φ=Φ 2 =2(0.25)(0.75)(1.667) = 0.625

Perhitungan nilai kesesuaian terhadap calon cabang nomor 4 dapat diambil analoginya, sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain. Selengkapnya hasil perhitungan itu adalah seperti yang tersaji pada Tabel-2.3.

11

Page 15: Finalversione-learningcontent

Langkah Ketiga Algoritma CART (Iterasi-1) Langkah ketiga dari Algoritma ini adalah menentukan calon cabang mana yang akan benar-benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai kesesuaian ( )tsΦ terbesar. Setelah itu gambarkanlah percabangan sesuai hasil menjalankan Algoritma. Jika tidak lagi terdapat noktah keputusan, pelaksanaan algoritma CART dihentikan. Jika maíz terdapat noktah keputusan, maka pelaksanaan algoritma dilanjutkan dengan kembali ke Langkah-2, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel-2.3 tampak bahwa calon cabang nomor 4 adalah calon cabang dengan nilai besaran kesesuaian terbesar dibandingkan dengan calon cabang yang lainnya, maka calon cabang inilah yang akan kita pilih sebagai pada tahap ini, sehingga kita peroleh Gambar-2.2 berikut dari iterasi-1 ini.

Noktah DasarAsset=Rendah

vs Asset={Sedang, Tinggi}

Noktah Terminasi Resiko Buruk (Rekord B, G)

Noktah Keputusan A (Rekord A,C,D,E,F,H)

Asset-{Sedang, Tinggi} Asset-Rendah

Gambar-2.2 Pohon Keputusan bagi Masalah Pengklasifikian Data Nasabah Bank Batara Putra

(Iterasi-1) Dari Gambar-2.2 tampak:

− pada noktah dasar, kita masih berhadapan dengan seluruh rekord, yaitu rekord A,B,C,D,E,F,G dan H,

− calon cabang nomor 4 kini telah benar-benar menjadi cabang, adapun cabang kirinya, yaitu cabang yang memenuhi syarat (asset=Rendah) dipenuhi oleh rekord B dan G, dan karena nilai variabel prediktor bagi kedua rekord ini

12

Page 16: Finalversione-learningcontent

seluruhnya adalah (resiko kredit = Buruk), maka dihasilkanlah noktah terminasi

− cabang kanannya, yaitu cabang yang memenuhi syarat (asset=Sedang,Tinggi) dipenuhi oleh rekord A,B,D,E,F dan H, dan karena nilai variabel prediktor bagi rekord-rekord ini ada yang memiliki (resiko kredit = Buruk) dan ada yang memiliki (resiko kredit = Buruk), maka dihasilkanlah noktah keputusan, dan karena ini adalah noktah keputusan pertama maka noktah ini kita sebut noktah keputusan A, noktah ini, karena bukan merupakan noktah terminasi, akan bercabang lebih lanjut.

Ini adalah hasil dari iterasi-1 dalam menjalankan Algoritma CART. Dari Gambar-2.2 tampak jelas masih adanya noktah keputusan, sehingga kita harus kembali ke Langkah 2, dan kali ini kita telah memulai memasuki Iterasi -2.

Langkah Kedua Algoritma CART (Iterasi-2) Langkah kedua dari Algoritma ini akan menilai kinerja dari keseluruhan calon cabang yang ada pada Daftar Calon Cabang Mutakhir. Untuk saat ini Daftar Calon Cabang Mutakhir adalah berasal dari daftar sejenis sebelumnya (yaitu, Tabel-2.2) dengan membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah sebelumnya, sehingga didapatkan Tabel-2.4 berikut ini.

Tabel-2.4 Daftar Calon Cabang Mutakhir Masalah Nasabah Bank Bhatara Putra (Iterasi-2)

Nomor Calon

Cabang Calon Cabang Kiri Calon Cabang Kanan 1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 5 asset = Sedang asset = (Rendah, Tinggi) 6 asset = Tinggi asset = (Rendah, Sedang) 7 pendapatan ≤ 25 000 pendapatan > 25000 8 pendapatan ≤ 50 000 pendapatan > 50 000 9 pendapatan ≤ 75 000 pendapatan > 75000

Tampak bahwa Tabel-2.4 sebenarnya berasal dari Tabel-2.2 dengan membuang calon cabang 4 yang pada Langkah-3 iterasi-1 telah berhasil menjadi cabang. Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam Daftar Calon Cabang Mutakhir, yaitu Tabel-2.4, disajikan dalam Tabel-2.5.

13

Page 17: Finalversione-learningcontent

Tabel-2.5 Perhitungan Nilai Kesesuaian untuk Calon Cabang 1,2,3,5,6,7,8,9

Nomor Calon

Cabang LP RP Resiko Kredit ( )LtjP ( )RtjP

RL PP2 ( )tsQ ( )tsΦ

1 1/6= 0.167 5/8= 0.833 Baik : 1/1= 0.333 4/5= 0.8 0.27778 0.933 0.25926 Buruk : 0/1= 0.667 1/5= 0.2 2 3/6= 0.5 5/8= 0.500 Baik : 3/3= 1 2/3= 0.667 0.5 0.667 0.33333 Buruk : 0/3= 0 1/3= 0.333 3 2/6= 0.333 6/8= 0.67 Baik : 1/2= 0.5 4/4= 1 0.44444 1.000 0.44444 Buruk : 1/2= 0.5 0/4= 0 4 5 4/6= 0.667 2/6= 0.333 Baik : 3/4= 0.75 2/2= 1 0.44444 0.500 0.22222 Buruk : 1/4= 0.25 0/2= 0 6 2/6= 0.333 4/6= 0.667 Baik : 2/2= 1 3/4= 0.75 0.44444 0.500 0.22222 Buruk : 0/2= 0 1/4= 0.25 7 2/6= 0.333 4/6= 0.667 Baik : 1/2= 0.5 4/4= 1 0.44444 1.000 0.44444 Buruk : 1/2= 0.5 0/4= 0 8 3/6= 0.5 3/6= 0.5 Baik : 2/3= 0.667 3/3= 1 0.5 0.667 0.33333 Buruk : 1/3= 0.333 0/3= 0 9 5/6= 0.833 1/6= 0.167 Baik : 4/5= 0.8 1/1= 1 0.27778 0.400 0.11111 Buruk : 1/5= 0.2 0/1= 0

Untuk mendapatkan gambaran bagaimana caranya untuk mendapatkan Tabel-2.5, berikut ini adalah penjelasan terhadap perhitungan nilai kesesuaian, katakanlah bagi calon cabang nomor 3, yaitu calon cabang yang terdiri atas:

calon cabang kiri adalah tabungan = Tinggi dan

calon cabang kanan adalah tabungan = (Rendah, Sedang) Hendaknya kita tidak lupa bahwa noktah yang tengah kita garap percabangannya saat ini adalah noktah keputusan A, dan noktah ini hanya menyangkut rekord 1,3,4,5,6, dan 8. Dari rekord-rekord pada noktah keputusan A, terdapat 2 buah rekord yang memenuhi syarat:

tabungan = Tinggi yaitu rekord nomor C dan F (lihat Tabel-2.1), adapun jumlah data latihan yang dipertimbangkan saat ini adalah 6 rekord, yaitu rekord A,C,D,E,F, dan H, sehingga dari persamaan (Pers.-3.3) didapat:

333.062

dibahastengahyangpadapadarekordjumlah3-kepada Tinggi)(denganrekordjumlah

===

=keputusannoktahlatihandata

kiricabangcalontabunganLP

Terdapat 4 buah rekord yang memenuhi syarat:

tabungan = (Rendah, Sedang)

14

Page 18: Finalversione-learningcontent

yaitu rekord nomor A,D,E dan H (lihat Tabel-2.1), adapun jumlah data latihan yang dipertimbangkan saat ini adalah 6 rekord, yaitu rekord A,C,D,E,F dan H, sehingga dari persamaan (Pers.-3.4) didapat:

667.064

dibahas tengah yang padapadarekordjumlah3-kepada),(denganrekordjumlah SedangRendah

===

=keputusan noktahlatihandata

kanancabangcalontabunganRP

Dari 2 (dua) buah rekord yang memenuhi syarat

calon cabang kiri, yaitu tabungan = Tinggi yaitu rekord C dan F :

− 1 rekord diantaranya, yaitu rekord F, memenuhi kategori resiko kredit = Baik, sehingga dari (Pers.-3.5) didapatkan :

( ) 5.021

dibahastengahyang padarekordjumlah3-kepadaBaik)(denganrekordjumlah

===

=t

tjP L keputusannoktahkiricabangcalonresiko

− 1 rekord lainnya, yaitu rekord C, memenuhi kategori resiko kredit = Buruk, sehingga dari (Pers.-3.5) didapatkan :

( ) 5.021

dibahastengahyang padarekordjumlah3-kepadaBaik)(denganrekordjumlah

===

=t

tjP L keputusannoktahkiricabangcalonresiko

Dari 4 (empat) buah rekord yang memenuhi syarat

calon cabang kanan, yaitu tabungan = (Rendah,Sedang,) yaitu rekord A,D,E dan H :

− kesemuanya memenuhi kategori resiko kredit = Baik, sehingga dari persamaan (Pers.-3.5) didapatkan :

( ) 144

dibahas tengahyang padarekordjumlah3-kepadaBaik)(denganrekordjumlah

===

=t

tjP R keputusannoktahkanancabangcalonresiko

− tak ada diantaranya yang memenuhi kategori resiko kredit = Buruk, sehingga dari persamaan (Pers.-3.6) didapatkan :

( ) 040

dibahastengah yang padarekordjumlah3-kepadaBuruk)(denganrekordjumlah

===

=t

tjP R keputusannoktahkanancabangcalonresiko

Selanjutnya didapatkan − nilai dari besaran

4444.0)667.0)(333.0(22 ==RL PP

− nilai dari besaran (lihat persamaan (Pers.-3.7))

( ) ( ) ( ) 105.015.01

=−+−==−= ∑=

kategorijumlah

jRL tjPtjPtsQ

dan akhirnya didapatkan pula (dari persamaan (Pers.-3.8)): ( ) ( )tsPPts RL Φ=Φ 2 =2(0.333)(0.667)(1) = 0.4444

15

Page 19: Finalversione-learningcontent

Perhitungan nilai kesesuaian terhadap calon cabang nomor 3 dapat diambil analoginya, sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain. Selengkapnya hasil perhitungan itu adalah seperti yang tersaji pada Tabel-2.5.

Langkah Ketiga Algoritma CART (Iterasi-2) Langkah ketiga dari Algoritma ini adalah menentukan calon cabang mana yang akan benar-benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai kesesuaian ( )tsΦ terbesar. Setelah itu gambarkanlah percabangan sesuai hasil menjalankan Algoritma. Jika tidak lagi terdapat noktah keputusan, pelaksanaan algoritma CART dihentikan. Jika masih terdapat noktah keputusan, maka pelaksanaan algoritma dilanjutkan dengan kembali ke Langkah-2, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel-2.5 tampak bahwa calon cabang nomor 3 dan 7 adalah calon cabang dengan nilai besaran kesesuaian terbesar dibandingkan dengan calon cabang yang lainnya, maka salah satu dari calon cabang inilah yang akan kita pilih pada tahap ini, sehingga kita peroleh Gambar-2.3 berikut dari iterasi-2 ini.

Noktah DasarAsset=Rendah

vs Asset={Sedang, Tinggi}

Noktah TerminasiResiko Buruk(Rekord B,G)

Noktah Keputusan A(Rekord A,C,D,E,F,H)

Noktah Keputusan BResiko Baik(Rekord C,F)

Noktah TerminasiResiko Baik

(Rekord A,D,E,H)

Tabungan= (Rendah, Sedang) Tabungan =Tinggi

Asset-{Sedang, Tinggi} Asset-Rendah

Gambar-2.3 Pohon Keputusan bagi Masalah Pengklasifikian Data Nasabah Bank Batara Putra (Iterasi-2)

16

Page 20: Finalversione-learningcontent

Dari Gambar-2.3 tampak: − pada noktah keputusan A, kita masih berhadapan dengan rekord A,C,D,E,F dan

H, − calon cabang nomor 3 kini telah benar-benar menjadi cabang, adapun cabang

kirinya, yaitu cabang yang memenuhi syarat (tabungan=Tinggi) dipenuhi oleh rekord C dan F, dan karena kedua rekord ini memiliki nilai variabel prediktor yang berbeda, maka dihasilkanlah noktah keputusan, dan karena ini adalah noktah keputusan kedua, maka noktah ini kita sebut noktah keputusan B, dan sesuai namanya, noktah ini akan bercabang lebih lanjut,

− cabang kanannya, yaitu cabang yang memenuhi syarat (tabungan= Rendah, Sedang) dipenuhi oleh rekord A,D,E, dan H, dan karena nilai variabel prediktor bagi rekord-rekord ini semuanya sama, yakni (resiko kredit = Baik), maka dihasilkanlah noktah terminasi, dan sesuai namanya, noktah ini tak akan bercabang lebih lanjut.

Ini adalah hasil dari iterasi-2 dalam menjalankan Algoritma CART. Dari Gambar-2.3 tampak jelas masih adanya noktah keputusan, sehingga kita harus kembali ke Langkah 2, dan kali ini kita telah memulai memasuki Iterasi -3.

Langkah Kedua Algoritma CART (Iterasi-3) Langkah kedua dari Algoritma ini akan menilai kinerja dari keseluruhan calon cabang yang ada pada Daftar Calon Cabang Mutakhir. Untuk saat ini Daftar Calon Cabang Mutakhir adalah berasal dari daftar sejenis sebelumnya (yaitu, Tabel-2.2) dengan membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah sebelumnya, sehingga didapatkan Tabel-2.6 berikut ini.

Tabel-2.6 Daftar Calon Cabang Mutakhir Masalah Nasabah Bank Bhatara Putra (Iterasi-3)

Nomor Calon Cabang Calon Cabang Kiri Calon Cabang Kanan

1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 5 asset = Sedang asset = (Rendah, Tinggi) 6 asset = Tinggi asset = (Rendah, Sedang) 7 pendapatan ≤ 25 000 pendapatan > 25000 8 pendapatan ≤ 50 000 pendapatan > 50 000 9 pendapatan ≤ 75 000 pendapatan > 75000

Tampak bahwa Tabel-2.4 sebenarnya berasal dari Tabel-2.2 dengan membuang calon cabang 3 yang pada Langkah-3 iterasi-2 telah berhasil menjadi cabang.

17

Page 21: Finalversione-learningcontent

Tabel-2.7 Perhitungan Nilai Kesesuaian untuk Calon Cabang 1,2,5,6,7,8,9

Nomor Calon

Cabang LP RP Resiko Kredit ( )LtjP ( )RtjP

RL PP2 ( )tsQ ( )tsΦ

1 0/2= 0 2/2= 1 Baik : 0 0 1/2= 0.5 0 1.000 0 Buruk : 0 0 1/2= 0.5 2 0/2= 0 2/2= 1 Baik : 0 0 1/2= 0.5 0 1.000 0 Buruk : 0 0 1/2= 0.5 3 4 5 1/2= 0.5 1/2= 0.5 Baik : 0/1= 0 1/1= 1 0.5 2.000 1 Buruk : 1/1= 1 0/1= 0 6 1/2= 0.5 1/2= 0.5 Baik : 1/1= 1 0/1= 0 0.5 2.000 1 Buruk : 0/1 0 1/1= 1 7 2/2= 1 0/2= 0 Baik : 1/2= 0.5 0/2= 0 0 1.000 0 Buruk : 1/2= 0.5 0/2= 0 8 2/2= 1 0/2= 0 Baik : 1/2= 0.5 0 0 0 1.000 0 Buruk : 1/2= 0.5 0 0 9 2/2= 1 0/2= 0 Baik : 1/2= 0.5 0 0 0 1.000 0

Buruk : 1/2= 0.5 0 0

Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam Daftar Calon Cabang Mutakhir, yaitu Tabel-2.6, disajikan dalam Tabel-2.7.

Langkah Ketiga Algoritma CART (Iterasi-3) Langkah ketiga dari Algoritma ini adalah menentukan calon cabang mana yang akan benar-benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai kesesuaian ( )tsΦ terbesar. Setelah itu gambarkanlah percabangan sesuai hasil menjalankan Algoritma. Jika tidak lagi terdapat noktah keputusan, pelaksanaan algoritma CART dihentikan. Jika masih terdapat noktah keputusan, maka pelaksanaan algoritma dilanjutkan dengan kembali ke Langkah-2, dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi cabang. Dari Tabel-2.7 tampak bahwa calon cabang nomor 5 dan 6 adalah calon cabang dengan nilai besaran kesesuaian terbesar dibandingkan dengan calon cabang yang lainnya, maka salah satu dari calon cabang inilah yang akan kita pilih pada tahap ini, sehingga kita peroleh Gambar-2.4 (yang identik dengan Gambar-2.1) pada iterasi-3 ini.

18

Page 22: Finalversione-learningcontent

Noktah DasarAsset=Rendah

vs Asset={Sedang, Tinggi}

Noktah TerminasiResiko Buruk(Rekord B, G)

Noktah Keputusan A(Rekord A,C,D,E,F,H)

Noktah Keputusan BResiko Baik(Rekord C,F)

Noktah TerminasiResiko Baik

(Rekord A,D,E,H)

Noktah TerminasiResiko Baik(Rekord C)

Noktah TerminasiResiko Buruk(Rekord F)

Tabungan= (Rendah, Sedang)

Asset = Tinggi Asset = Medium

Tabungan =Tinggi

Asset-{Sedang, Tinggi} Asset-Rendah

Gambar-2.4 Pohon Keputusan bagi Masalah Pengklasifikian Data Nasabah Bank Batara Putra

(Iterasi-3) Dari Gambar-2.4 tampak:

− pada noktah keputusan B, kita masih berhadapan dengan 2 rekord, yaitu C dan F,

− calon cabang nomor 5 kini telah benar-benar menjadi cabang, adapun cabang kirinya, yaitu cabang yang memenuhi syarat (asset=Medium) hanya diisi oleh sebuah rekord saja, yaitu C, maka dihasilkanlah noktah terminasi, sehingga noktah ini tidak akan bercabang lebih lanjut,

− cabang kanannya, yaitu cabang yang memenuhi syarat (tabungan= Rendah, Tinggi) dipenuhi oleh rekord F, dan karena ini adalah satu-satunya rekord pada cabang ini, maka dihasilkanlah noktah terminasi, dan sesuai namanya, noktah ini tak akan bercabang lebih lanjut.

19

Page 23: Finalversione-learningcontent

Oleh karena pada akhir Langkah-3 Iterasi-3 ini tak ada lagi noktah keputusan, berarti

.5 Klasifikasi: Pengembangan Selanjutnya

iterasi dihentikan, dan Gambar-2.5 adalah pengetahuan yang dihasilkan dari fungsi klasifikasi pada Data Mining.

2 goritma bagi pemecahan masalah

embaca yang menaruh minat untuk mendalami algoritma klasifikasi lainnya, berikut ini

hbor

.6 Klasifikasi: Epilog

Apakah Algoritma CART merupakan satu-satunya alklasifikasi? Ternyata tidak! Para peneliti dan pakar Data Mining tetap tak pernah lelah mencoba merancang algoritma baru bagi pemecahan masalah klasifikasi. Padalah algoritma sejenisnya (Berry dan Browne (2006)):

− Algoritma mean vector − Algoritma k-nearest neig− Algoritma ID3 − Algoritma C4.5 − Algoritma C5.0

2 jelas bagi pembaca hal-hal berikut ini yang terkait dengan

asar pada masalah klasifikasi, etahuan yang dihasilkannya beserta

− angkah yang yang dijalani oleh salah satu algoritma yang

engan pernah mencoba mendalami salah satu algoritma klasifikasi, yaitu CART,

.7 Soal Latihan

Demikian kiranya menjadi masalah klasifikasi:

− istilah-istilah d− contoh prototipe masalah klasifikasi dan peng

interpretasinya, detail langkah-ldigunakan Data Mining dalam menjalankan fungsi mayor pertamanya, yaitu algoritma CART (Classification and Regression Trees), dan

Dpenulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari algoritma lain bagi masalah ini.

2 rja di sebuah laboratorium lensa kontak, namun demikian saya tidak

1. Saya pernah bekeberurusan dengan teknis pembuatan lensa kontak, melainkan sekedar sebagai petugas administrasi yang mencatat data para pasien. Data tersebut mencakup - sebenarnya tidak seluruhnya saya pahami, karena memang saya tak perlu memahaminya- usia, spectacle prescription, astigmatism, tear production rate dan recommended lenses. Berikut ini adalah data yang saya miliki dari beberapa pasien yang pernah menjadi tanggung-jawab saya:

20

Page 24: Finalversione-learningcontent

Salah satu tugas Data Mining adalah melakukan klasifikasi, dan klasifikasi dapat dinyatakan dalam bentuk pohon keputusan.. Saya mohon bantuan anda untuk menghasilkan pohon keputusan tersebut agar kelak saya dapat memperkirakan rekomendasi tentang jenis lensa yang harus diberikan kepada para pasien pada masa mendatang!

2. Sebuah perusahaan sebenarnya memiliki ribuan karyawan yang dicatat jabatannya,

jenis kelamin, umur dan kategori gajinya. Misalkan setelah disampel didapat data dari 11(sebelas) pegawai sebagai berikut:

Pegawai Jabatan Jenis

Kelamin Umur Asal Kategori

Gaji 1 Sevice Perempuan 45 Kota Besar Level-3 2 Sevice Laki-laki 25 Kota Besar Level-1 3 Sevice Laki-laki 33 Kota Kecil Level-2 4 Management Laki-laki 25 Kota Besar Level-3 5 Management Perempuan 35 Kota Kecil Lavel-4 6 Management Laki-laki 26 Kota Kecil Level-3 7 Management Perempuan 45 Kota Besar Level-4 8 Sales Perempuan 40 Kota Kecil Level-3 9 Sales Laki-laki 30 Kota Besar Level-2 10 Staff Perempuan 50 Kota Besar Level-2 11 Staff Laki-laki 25 Kota Kecil Level-1

Bangunlah pohon keputusan yang dapat digunakan untuk menentukan level gaji seorang pegawai, apabila tentang pegawai tersebut diketahui jabatan, jenis kelamin, umur dan asalnya!

21

Page 25: Finalversione-learningcontent

Bab 3 Fungsi Mayor Kedua dari Data Mining: Pengelompokan

3.1 Pengantar Misalkan kepada anda diberikan data tentang 8 orang nasabah yang pernah memperoleh kredit dari Bank Bhatara Putra. Misalkan pula data mereka kali ini menyangkut jumlah rumah dan jumlah mobil yang mereka miliki. Data selengkapnya seperti disajikan dalam Tabel-3.1 berikut ini:

Tabel-3.1 Data Jumlah Rumah dan Jumlah Mobil yang Dimiliki oleh 8 Nasabah Bank Bhatara Putra

Nasabah Jumlah Rumah Jumlah Mobil A 1 3 B 3 3 C 4 3 D 5 3 E 1 2 F 4 2 G 1 1 H 2 1

Kita akan mencoba menyimak, merenungkan dan mempelajari data pada Tabel-3.1 di atas. Diharapkan, dari hasil menyimak, merenungkan dan mempelajari data tersebut kelak kita dapat mengelompokkan atau mengklasterkan (clustering) kedelapan nasabah tersebut kedalam 2 atau lebih kelompok nasabah atau klaster nasabah. Pengelompokan yang diharapkan adalah pengelompokan yang mampu menghasilkan kelompok nasabah yang memenuhi sifat:

− nasabah yang jumlah rumah dan jumlah mobilnya hampir sama akan berada pada kelompok nasabah yang sama, dan

− nasabah yang jumlah rumah dan jumlah mobilnya cukup berbeda akan berada pada kelompok nasabah yang berbeda

Bab ini akan membahas fungsi mayor kedua dari Data Mining, yaitu pengelompokan. Bahasan akan mencakup:

− Pengenalan beberapa istilah dasar, bagian ini akan memudahkan kita mengikuti bahasan berikutnya tentang masalah Pengelompokani,

− Prototipe masalah Pengelompokan dan pengetahuan yang dihasilkannya, bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam mendapatkan gambaran tentang apa sebenarnya yang menjadi input serta pengetahuan apa yang menjadi output dari fungsi mayor Pengelompokan. Selanjutnya terhadap pengetahuan yang menjadi produk dari fungsi mayor Pengelompokan akan diberikan interpretasinya,

− Algoritma Pengelompokan, bagian ini membahas detail langkah-langkah yang yang dijalani oleh salah satu algoritma yang digunakan Data Mining dalam menjalankan fungsi mayor keduanya, yaitu Algoritma k-Means, dan

22

Page 26: Finalversione-learningcontent

− Pengembangan Selanjutnya, bagian ini berisi informasi yang dapat digunakan bagi para pembaca yang tertarik untuk mempelajari algoritma-algoritma lain yang dapat menjalankan fungsi mayor Pengelompokan

3.2 Pengenalan beberapa istilah dasar Pada masalah pengelompokan, hal-hal yang akan dikelompokkan disebut objek atau rekord. Dalam Tabel-3.1, objek dapat mengambil bentuk berupa kedelapan nasabah yang akan dikelompokkan. Setiap objek dibedakan (dari objek yang lain) berdasarkan atribut yang dimilikinya masing-masing. Dalam kasus pengelompokkan terhadap objek pada Tabel-3.1, setiap objek dicirikan oleh atribut berupa jumlah rumah dan jumlah mobil yang mereka miliki. Kumpulan dari seluruh atribut disebut data input. Pada masalah pengelompokan terhadap objek pada Tabel-3.1 data input berupa himpunan dari keseluruhan atribut jumlah rumah dan jumlah mobil yang dimiliki oleh objek (berupa nasabah) yang akan dikelompokkan. Algoritma Pengelompokan akan menggunakan data input untuk, sesuai pengertian Data Mining, menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam Pengelompokan? Pengetahuan berupa penentuan beberapa kelompok rekord yang memiliki kemiripan atribut. Jadi secara ringkas, pada Pengelompokan, rekord-rekord yang memiliki kemiripan atribut akan dikelompokkan kedalam salah satu dari sekian kelompok. Adapun rekord-rekord yang kurang memiliki kesamaan atribut akan ditempatkan pada kelompok yang berbeda. Masalah Pengelompokan secara ringkas dapat digambarkan sebagai berikut:

− berangkat dari data input yang tersedia, misalnya seperti pada Tabel-3.1, − dilakukan pengolahan terhadap data input dengan menggunakan algoritma

Pengelompokan, − berakhir dengan dihasilkannya 2 atau lebih kelompok objek, sehingga objek-

objek yang memiliki kemiripan atribut akan dimasukkan kedalam kelompok yang sama, dan objek-objek yang kurang memiliki kemiripan atribut akan dimasukkan dalam kelompok yang berbeda

Demikianlah, kiranya beberapa istilah dasar yang akan sering digunakan dalam memahami fungsi mayor Pengelompokan menjadi jelas bagi para pembaca.

3.3 Prototipe masalah Pengelompokan dan Pengetahuan yang dihasilkannya Misalkan kedelapan nasabah pada Tabel-3.1 hendak dikelompokkan menjadi 3 kelompok. Tabel-3.2 herikut ini adalah contoh dari hasil pengelompokan, sebagai jawab bagi masalah pengelompokan dengan data input seperti tertera pada Tabel-3.1, yang dalam hal ini atributnya adalah jumlah rumah dan jumlah mobil dari setiap nasabah.

23

Page 27: Finalversione-learningcontent

Tabel-3.2 Hasil Pengelompokan Nasabah kedalam 3 Kelompok

Kelompok (Cluster) Anggota Kelompok 1 {B} 2 {A,E,G,H} 3 {C,D,F}

Hasil Pengelompokan pada Tabel-3.2 itulah yang merupakan pengetahuan yang dihasilkan dari fungsi Pengelompokan. Bentuk pengetahuan lain yang didapat adalah interpretasi berikut:

− kelompok nasabah pertama adalah kelompok yang unik, karena hanya memiliki seorang anggota saja, yaitu nasabah B, kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki jumlah rumah sedang (yaitu 3 buah) dan jumlah mobil banyak (yaitu 3 buah),

− kelompok nasabah kedua memiliki 4 orang anggota, yaitu nasabah A,E,G dan H, kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki rata-rata jumlah rumah sedikit (yaitu 1.25 buah) dan rata-rata jumlah mobil yang sedikit pula (yaitu 1.75 buah), dan

− kelompok nasabah ketiga memiliki 3 orang anggota, yaitu nasabah C,D dan F, kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan kelompok nasabah yang memiliki rata-rata jumlah rumah banyak (yaitu 4.33 buah) dan rata-rata jumlah mobil yang cukup banyak (yaitu 2.67 buah).

Demikianlah, kiranya

− melalui pembahasan prototipe masalah pengelompokan, menjadi jelas bagi kita apa itu sebenarnya masalah pengelompokan, dan

− melalui pembahasan interpretasi pengetahuan yang dihasilkan oleh fungsi mayor pengelompokan, menjadi jelas bagi kita bagaimana memaknai pengetahuan yang dihasilkan dari masalah ini.

3.4 Algoritma Pengelompokan: k-means Bila kita membuat kilas balik terhadap pembicaraan kita pada bab ini, maka sebenarnya yang telah kita alami dapat diringkas sebagai berikut:

− pertama, kita memiliki data input berupa atribut dari 8 rekord nasabah seperti tertera pada Tabel-3.1, dan kita ingin memperoleh pengetahuan berupa bagaimana rekord-rekord itu harus dikelompokkan agar diperoleh kelompok rekord yang memiliki kemiripan atribut,

− kedua, data input itu kelak akan kita jadikan input bagi suatu algoritma, yang saat ini belum kita ketahui algoritma apakah itu,

− ketiga, sebagai keluaran dari algoritma, yang saat ini belum kita ketahui itu, maka kita akan memperoleh pengetahuan berupa kelompok rekord yang memiliki kemiripan atribut.

24

Page 28: Finalversione-learningcontent

Bagian ini akan membahas detail dari salah satu algoiritma yang dapat menghasilkan kelompok rekord yang memiliki kemiripan atribut.. Algoritma itu disebut dengan Algoritma Pengelompokan k-means yang akan menghasilkan sebanyak k buah kelompok rekord. Algoritma k-means pertama kali digagas oleh J. MacQueen (dalam Larose (2005)). Mari kita terapkan Algoritma k-means terhadap data pada Tabel-3.1. Langkah-langkah pada Algoritma k-means adalah sebagai berikut:

− Langkah-1: tanyakan kepada pemakai algoritma k-means, hendak dikelompokkan menjadi berapa kelompokkah rekor-rekord yang ada, sebutlah sebanyak k kelompok,

− Langkah-2: secara sembarang pilihlah k buah rekord (dari sekian rekord yang ada) sebagai pusat-pusat kelompok awal,

− Langkah-3: untuk setiap rekord, tentukan pusat kelompok terdekatnya, dan tetapkan rekord tersebut sebagai anggota dari kelompok yang terdekat pusat kelompoknya, hitung rasio antara besaran Between Cluster Variation dengan Within Cluster Variation, bandingkan rasio ini dengan rasio sebelumnya (bila sudah ada), jika rasio ini membesar lanjutkan ke Langkah-4, jika tidak, berhenti.

− Langkah-4: perbaharui pusat-pusat kelompok (berdasarkan kelompok yang didapat dari Langkah-3), dan kembali ke Langkah-3

Berikut ini adalah contoh penerapan Algoritma k-means pada masalah Pengelompokan terhadap data dari 8 nasabah pada Tabel-3.1.

Langkah Pertama Algoritma k-means

Apa yang menjadi langkah pertama Algoritma k-means? Langkah pertama dari Algoritma k-means adalah menanyakan kepada pemakai algoritma k-means, hendak dikelompokkan menjadi berapa kelompokkah rekor-rekord yang ada, sebutlah sebanyak 3 kelompok, jadi nilai k adalah 3, atau k=3. .

Langkah Kedua Algoritma k-means

Langkah kedua dari algoritma ini akan secara sembarang memilih k=3 buah rekord (dari 8 rekord yang ada) sebagai pusat-pusat kelompok awal, misalkan dipilih:

− rekord B sebagai pusat kelompok-1, sehingga )3,3(m1 = , − rekord E sebagai pusat kelompok-2, sehingga )2,1(m2 = , dan − rekord F sebagai pusat kelompok-3, sehingga )2,4(m3 =

Langkah Ketiga Algoritma k-means (Iterasi-1) Pada langkah ketiga dari algoritma ini, untuk setiap rekord akan ditentukan pusat kelompok terdekatnya, dan tetapkan rekord tersebut sebagai anggota dari kelompok yang terdekat pusat kelompoknya, seperti tersaji dalam Tabel-3.3.

25

Page 29: Finalversione-learningcontent

Tabel-3.3 Perhitungan Jarak Rekord ke Pusat Kelompok dan Penetapan Keanggotaan Rekord (Iterasi-1

Rekord

Jarak ke pusat

kelompok-1

Jarak ke pusat

kelompok-2

Jarak ke pusat

kelompok-3

Jarak terdekat

ke kelompok

A 2 1 3.162 C2 B 0 2.236 1.414 C1 C 1 3.162 1 C3 D 2 4.123 1.414 C3 E 2.236 0 3 C2 F 1.414 3 0 C3 G 2.828 1 3.162 C2 H 2.236 1.414 2.236 C2

Catatan: arsir kuning menunjukkan jarak terpendek Dari Tabel-3.3 didapatkan keanggotaan sebagai berikut:

− kelompok-1 (atau C1) = {B}, − kelompok-2 (atau C2) = {A,E,G,H}, dan − kelompok-3 (atau C3) = {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan Within Cluster Variation (WCV), sebagai berikut:

− )m,(m)m,(m)m,(mBCV 323121 ddd ++= = 6.650 (dalam hal ini menyatakan jarak Euclides dari ke ) ),( ji mmd im jm

− WCV= 12+02+12+1.4142+02+02+12+1.4142 = 7 sehingga diperoleh besarnya rasio

950.0WCVBCV

=

Mengingat pada langkah sebelumnya belum diperoleh rasio ini, maka perbandingan rasio belum dapat dilakukan, dan algoritma dilanjutkan ke langkah keempat.

Langkah Keempat Algoritma k-means (Iterasi-1) Pada langkah ini dilakukan pembaharuan pusat-pusat kelompok, sebagai beriku:

− )3,3()rata(mratam B1 =−=− )75.1,25.1()m,m,m,rata(m-ratam HGEA2 == − )667.2,333.4()m,m,rata(m-ratam FDC3 ==

Selanjutnya kita kembali ke langkah-3

26

Page 30: Finalversione-learningcontent

Langkah Ketiga Algoritma k-means (Iterasi-2)

Pada langkah ketiga dari algoritma ini, untuk setiap rekord akan ditentukan pusat kelompok terdekatnya, dan tetapkan rekord tersebut sebagai anggota dari kelompok yang terdekat pusat kelompoknya, seperti tersaji dalam Tabel-3.4.

Tabel-3.4 Perhitungan Jarak Rekord ke Pusat Kelompok dan Penetapan Keanggotaan Rekord (Iterasi-2)

Rekord

Jarak ke pusat

kelompok-1

Jarak ke pusat

kelompok-2

Jarak ke pusat

kelompok-3

Jarak terdekat ke kelompok

A 2 1.275 3.350 C2 B 0 1.768 1.374 C1 C 1 3.021 0.471 C3 D 2 3.953 0.745 C3 E 2.236 0.354 3.399 C2 F 1.414 2.813 0.745 C3 G 2.828 0.791 3.727 C2 H 2.236 1.061 2.867 C2

Catatan: arsir kuning menunjukkan jarak terpendek Dari Tabel-3.4 didapatkan keanggotaan sebagai berikut:

− kelompok-1 (atau C1) = {B}, − kelompok-2 (atau C2) = {A,E,G,H}, dan − kelompok-3 (atau C3) = {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan Within Cluster Variation (WCV), sebagai berikut:

− )m,(m)m,(m)m,(mBCV 323121 ddd ++= = 6.741 (dalam hal ini menyatakan jarak Euclides dari ke ) ),( ji mmd im jm

− WCV= 1.2752+02+0.4712+0.7452+0.3542+0.7452+0.7912+1.0612 = 4.833 sehingga diperoleh besarnya rasio

394.1WCVBCV

=

Tampak bahwa nilai rasio ini (1.394) membesar dibandingkan rasio sejenis yang didapat pada langkah sebelumnya (0.950), karena itu algoritma dilanjutkan ke langkah keempat.

Langkah Keempat Algoritma k-means (Iterasi-3) Pada langkah ini dilakukan pembaharuan pusat-pusat kelompok, sebagai beriku:

− )3,3()rata(mratam B1 =−=− )75.1,25.1()m,m,m,rata(m-ratam HGEA2 == − )667.2,333.4()m,m,rata(m-ratam FDC3 ==

Selanjutnya kita kembali ke langkah-3

27

Page 31: Finalversione-learningcontent

Langkah Ketiga Algoritma k-means (Iterasi-3) Pada langkah ketiga dari algoritma ini, untuk setiap rekord akan ditentukan pusat kelompok terdekatnya, dan tetapkan rekord tersebut sebagai anggota dari kelompok yang terdekat pusat kelompoknya, seperti tersaji dalam Tabel-3.5.

Tabel-3.4 Perhitungan Jarak Rekord ke Pusat Kelompok dan Penetapan Keanggotaan Rekord (Iterasi-3)

Rekord

Jarak ke pusat

kelompok-1

Jarak ke pusat

kelompok-2

Jarak ke pusat

kelompok-3

Jarak terdekat ke kelompok

A 2 1.275 3.350 C2 B 0 1.768 1.374 C1 C 1 3.021 0.471 C3 D 2 3.953 0.745 C3 E 2.236 0.354 3.399 C2 F 1.414 2.813 0.745 C3 G 2.828 0.791 3.727 C2 H 2.236 1.061 2.867 C2

Catatan: arsir kuning menunjukkan jarak terpendek Dari Tabel-3.5 didapatkan keanggotaan sebagai berikut:

− kelompok-1 (atau C1) = {B}, − kelompok-2 (atau C2) = {A,E,G,H}, dan − kelompok-3 (atau C3) = {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation (BCV) dengan Within Cluster Variation (WCV), sebagai berikut:

− )m,(m)m,(m)m,(mBCV 323121 ddd ++= = 6.741 (dalam hal ini menyatakan jarak Euclides dari ke ) ),( ji mmd im jm

− WCV= 1.2752+02+0.4712+0.7452+0.3542+0.7452+0.7912+1.0612 = 4.833 sehingga diperoleh besarnya rasio

394.1WCVBCV

=

Tampak bahwa nilai rasio ini (1.394) sudah tidak lagi membesar dibandingkan rasio sejenis yang didapat pada langkah sebelumnya (1.394), karena itu algoritma dihentikan.

3.5 Pengelompokan: Pengembangan Selanjutnya Apakah Algoritma k-means merupakan satu-satunya algoritma bagi pemecahan masalah pengelompokan? Ternyata tidak! Para peneliti dan pakar Data Mining tetap tak pernah lelah mencoba merancang algoritma baru bagi pemecahan masalah pengelompokan.

28

Page 32: Finalversione-learningcontent

Pembaca yang menaruh minat untuk mendalami algoritma pengelompokan lainnya, berikut ini adalah algoritma sejenisnya (Berry dan Browne (2006)):

− Algoritma hierarchical clustering − Algoritma partitional clustering − Algoritma single linkage − Algoritma complete linkage − Algoritma average linkage − dan lain-lain.

3.6 Pengelompokan: Epilog Demikian kiranya menjadi jelas bagi pembaca hal-hal berikut ini yang terkait dengan masalah pengelompokan:

− istilah-istilah dasar pada masalah pengelompokan, − contoh prototipe masalah pengelompokan dan pengetahuan yang dihasilkannya

beserta interpretasinya, dan − detail langkah-langkah yang yang dijalani oleh salah satu algoritma yang

digunakan Data Mining dalam menjalankan fungsi mayor keduanya, yaitu algoritma k-means..

Dengan pernah mencoba mendalami salah satu algoritma pengelompokan, yaitu k-means, penulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari algoritma lain bagi masalah ini.

3.7 Soal Latihan Untuk mengikuti mata kuliah ITI 372 Penelitian Operasional II, seorang mahasiswa harus pernah lulus mata kuliah prasyarat, yaitu ITI 371 Penelitian Operasional II, AMA 214 Kalkulus Peubah Banyak, AMA 213 Matriks dan Ruang Vektor, AMA 102 Kalkulus II dan AMA 101 Kalkukus I. Berikut ini adalah daftar nilai mata kuliah prasyarat dari 20 orang calon peserta mata kuliah ITI 372:

Lakukanlah pengelompokan terhadap ke-20 calon peserta itu, dengan dasar pengelompokan adalah nilai kelima mata kuliah prasyarat. Berilah interpretasi terhadap hasil pengelompokan tersebut!

29

Page 33: Finalversione-learningcontent

Bab 4 Fungsi Mayor Ketiga Data Mining: Aturan Asosiasi

4.1 Pengantar Misalkan kepada anda diberikan data tentang daftar belanja dari 14 orang pengunjung yang pernah berbelanja di Toserba Favorit. Data tersebut meliputi item-item belanja yang dibeli oleh 14 wanita tersebut. Data selengkapnya seperti disajikan dalam Tabel-4.1 berikut ini:

Tabel-4.1 Daftar Item Belanja dari 14 Pengunjung Toserba Favorit

Pengunjung ke- Item Belanja yang dibeli 1 Broccoli, green peppers, corn 2 Asparagus, squash, corn 3 Corn, tomatoes, beans, squash 4 Green peppers, corn, tomatoes, beans 5 Beans, asparagus, broccoli 6 Squash, asparagus, beans, tomatoes 7 Tomatoes, corn 8 Broccoli, tomatoes, green peppers 9 Squash, asparagus, beans 10 Beans, corn 11 Green peppers, broccoli, beans, squash 12 Asparagus, beans, squash 13 Squash, corn, asparagus, beans 14 Corn, green peppers, tomatoes, beans, broccoli

Data pada Tabel-4.1 berasal dari masa lampau, sehingga bagi kita ia menjadi data historis atau data sejarah. Seperti diutarakan pada awal Bab-2, orang bijak selalu belajar dari pengalaman masa lampau, artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis seperti yang tertera pada Tabel-4.1 di atas? Kita akan mencoba menyimak, merenungkan dan mempelajari data pada tabel tersebut. Diharapkan, kelak, kita dapat menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item apa saja yang seringkali dibeli secara bersamaan oleh para pengunjung. Bab ini akan membahas fungsi mayor ketiga dari Data Mining, yaitu aturan asosiasi. Bahasan akan mencakup:

− Pengenalan beberapa istilah dasar, bagian ini akan memudahkan kita mengikuti bahasan berikutnya tentang masalah aturan asosiasi,

− Prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya, bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam mendapatkan gambaran tentang apa sebenarnya yang menjadi input serta pengetahuan apa yang menjadi output dari fungsi mayor aturan asosiasi. Selanjutnya terhadap pengetahuan yang menjadi produk dari fungsi mayor Aturan Asosiasi akan diberikan interpretasinya,

− Algoritma Aturan Asosiasi, bagian ini membahas detail langkah-langkah yang yang dijalani oleh salah satu algoritma yang digunakan Data Mining dalam

30

Page 34: Finalversione-learningcontent

menjalankan fungsi mayor ketiganya, yaitu Algoritma MBA (Market Basket Analysis), dan

− Pengembangan Selanjutnya, bagian ini berisi informasi yang dapat digunakan bagi para pembaca yang tertarik untuk mempelajari algoritma-algoritma lain yang dapat menjalankan fungsi mayor Aturan Asosiasi

4.2 Pengenalan beberapa istilah dasar Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut dengan istilah itu? Disebut data latihan (training data), karena kita akan berlatih dari data tersebut untuk mendapatkan pengetahuan. Disebut data pengalaman, karena data tersebut berasal dari masa lampau, dan bukankah masa lampau adalah pengalaman bagi kita? Algoritma Aturan Asosiasi akan menggunakan data latihan untuk, sesuai pengertian Data Mining, menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam Aturan Asosiasi? Pengetahuan untuk mengetahui item-item belanja apa saja yang sering dibeli secara bersammaan dakam suatu waktu. Aturan Asosiasi yang berbentuk “if ... then ...” atau “jika ... maka ...” itulah yang merupakan pengetahuan yang dihasilkan dari fungsi Aturan Asosiasi. Sebelum kita pelajari cara menghasilkan aturan asosiasi, akan diperkenalkan pula beberapa istilah yang amat teknis sifatnya. Istilah teknis pertama yang harus kita kenal adalah item, yaitu barang yang dibeli atau barang yang menjadi objek kegiatan belanja. Jadi untuk masalah Toserba Favorit terdapat 7 (tujuh) jenis item, yaitu (menurut urutan alfabet): Asparagus, Beans, Broccoli, Corn, Green peppers,, Squash, Tomatoes. Kita akan pelajari istilah teknis selanjutnya. Himpunan item, dilambangkan dengan I, adalah himpunan dari semua jenis item yang akan dibahas, jadi untuk kasus Toserba Favorit didapatkan bahwa:

I = {Asparagus, Beans, Broccoli, Corn, Green peppers,, Squash, Tomatoes} (Pers.-4.1)

Himpunan item yang dibeli oleh pengunjung ke-i disebut transaksi ke-i, dilambangkan dengan , sebagai contoh: iT

}broccolibeans,tomatoes,rs,greenpeppeCorn,{T

}cornsquash,Asparagus,{T}cornpeppers,greenBrocolli,{T

14

2

1

=

==

M (Pers.-4.2)

Himpunan dari seluruh transaksi, dilambangkan dengan D, sehingga:

}T....,,T,T{D 1421= (Pers.-4.3)

Aturan asosiasi yang ingin dihasilkan kelak akan berbentuk implikasi berikut:

31

Page 35: Finalversione-learningcontent

“Jika A maka B” atau “ ” (Pers.-4.4) BA ⇒

dalam hal ini, A disebut anteseden (atau pendahulu) dari implikasi, sedangkan B disebut konsekuen (atau pengikut) dari implikasi. Sebagai catatan, pada aturan asosiasi yang kelak akan dihasilkan haruslah dipenuhi 2 (dua) buah sifat berikut ini. Pertama, baik A maupun B adalah himpunan bagian murni dari I, jadi:

IBA, ⊂ (Pers.-4.5)

Kedua, himpunan A dan B adalah dua himpunan yang saling lepas, jadi:

φ=∩BA (Pers.-4.6)

Salah satu ukuran kinerja bagi aturan asosiasi “ ” adalah besaran support (atau dukungan), dilambangkan dengan s( ), didefinisikan sebagai:

BA ⇒BA ⇒

D BA B)P(AB)s(A

pada transaksitotaljumlah

pada item-item mengandung yang nsaksijumlah tra ∩=∩=⇒ (Pers.-4.7)

Ukuran kinerja yang lain bagi aturan asosiasi “ ” adalah besaran support (atau dukungan), dilambangkan dengan conf( ), didefinisikan sebagai:

BA ⇒BA ⇒

A BA )BP(AB)conf(A

pada item-item mengandung yang transaksijumlah

pada item-item mengandung yang nsaksijumlah tra ∩==⇒ (Pers.-4.8)

Suatu itemset adalah suatu himpunan yang beranggotakan sebagian atau seluruh item yang menjadi anggota himpunan I. Beberapa contoh dari itemset adalah {Asparagus}, atau {Asparagus, Beans}, demikian pula {Asparagus, Beans, Squash}. Suatu itemset yang beranggotakan k buah item, disebut k-itemset, jadi:

− himpunan {Asparagus} adalah suatu itemset, lebih spesifik lagi, suatu 1-itemset, karena hanya beranggotakan 1 (satu) buah item saja

− himpunan {Asparagus, Beans} adalah suatu itemset, lebih spesifik lagi, suatu 2-itemset, karena beranggotakan 2 (dua) buah item,

− himpunan {Asparagus, Beans,Squash} adalah suatu itemset, lebih spesifik lagi, suatu 3-itemset, karena beranggotakan 3 (tiga) buah item.

Besaran frekuensi itemset mengukur berapa kali sebuah itemset muncul sebagai bagian atau keseluruhan transaksi yang menjadi anggota dari daftar transaksi D. Sebagai contoh:

− frekuensi itemset {Asparagus} adalah 6, karena himpunan ini menjadi bagian dari 6 (enam) transaksi pada Tabel-4.1, yaitu an 129652 T,T,T,T,T d 13T

− frekuensi itemset {Asparagus, Beans} adalah 5, karena himpunan ini menjadi bagian dari 5 (lima) transaksi pada Tabel-4.1, yaitu an 12965 T,T,T,T d 13T

− frekuensi itemset {Asparagus, Beans, Squash} adalah 4, karena himpunan ini menjadi bagian dari 4 (empat) transaksi pada Tabel-4.1, yaitu an 1296 T,T,T d 13T

32

Page 36: Finalversione-learningcontent

Suatu itemset sering (frequent itemset) adalah suatu itemset yang memiliki frekuensi itemset minimal sebesar suatu bilangan Φ yang ditetapkan. Sebagai ilustrasi, bila kita tetapkan =4, maka: Φ

− itemset {Asparagus, Beans, Squash} termasuk itemset sering, karena memiliki frekuensi itemset yang telah melebihi atau minimal sebasar Φ=4,

− itemset {Squash, Tomatoes} tidak tyermasuk itemset sering, karena memiliki frekuensi itemset sebesar 3, artinya masih dibawah nilai Φ yang ditetapkan.

Itemset sering yang memiliki k buah anggota disebut k-itemset sering (frequent k-itemset), sebagai contoh:

− itemset {Asparagus, Beans, Squash} termasuk 3-itemset sering, karena himpunan ini termasuk itemset sering dan memiliki 3 buah anggota

Himpunan dari seluruh k-itemset sering dilambangkan dengan Fk. Masalah Aturan Asosiasi secara ringkas dapat digambarkan sebagai berikut:

− berangkat dari data latihan yang tersedia, misalnya seperti pada Tabel-2.1, − dilakukan pengolahan terhadap data latihan dengan menggunakan algoritma

Aturan Asosiasi, − berakhir dengan dihasilkannya sebuah pengetahuan yang direpresentasikan

dalam bentuk sebuah diagram, yang biasa disebut aturan asosiasi (decision tree) Demikianlah, kiranya beberapa istilah dasar yang akan sering digunakan dalam memahami fungsi mayor Aturan Asosiasi menjadi jelas bagi para pembaca.

4.3 Prototipe masalah Aturan Asosiasi dan Pengetahuan yang dihasilkannya Kembali pada data latihan yang tertera pada Tabel-4.1, berikut ini adalah contoh beberapa aturan asosiasi yang dihasilkan kelak:

“Jika membeli Asparagus, maka membeli Beans”

Aturan ini dapat diartikan bahwa: − item Asparagus mempunyai kecenderungan untuk dibeli bersama-sama dengan

item Beans, atau − pengunjung Toserba Favorit yang membeli Asparagus, mempunyai

kecenderungan, untuk juga membeli Beans. Sebenarnya masih terdapat banyak lagi aturan asosiasi yang dapat dihasilkan, namun demikian kiranya

− melalui pembahasan prototipe masalah Aturan Asosiasi, menjadi jelas bagi kita apa itu sebenarnya masalah Aturan Asosiasi, dan

− melalui pembahasan interpretasi pengetahuan yang dihasilkan oleh fungsi mayor Aturan Asosiasi, menjadi jelas bagi kita bagaimana memaknai pengetahuan yang dihasilkan dari masalah ini.

33

Page 37: Finalversione-learningcontent

4.4 Algoritma Aturan Asosiasi: MBA (Market Basket Analysis) Bila kita membuat kilas balik terhadap pembicaraan kita pada bab ini, maka sebenarnya yang telah kita alami dapat diringkas sebagai berikut:

− pertama, kita memiliki data historis berupa daftar item yang dibeli oleh 14 pengunjung Toserba Favorit seperti tertera pada Tabel-4.1, dan kita ingin memperoleh pengetahuan yang dapat diaplikasikan untuk menghasilkan aturan asosiasi, sehingga diketahui item-item belanja apa saja yang sering dibeli bersama-bersama oleh para pengunjung,

− kedua, data itu kelak akan kita jadikan input bagi suatu algoritma, yang saat ini belum kita ketahui algoritma apakah itu

− ketiga, sebagai keluaran dari algoritma, yang saat ini belum kita ketahui itu, maka kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pernyataan “Jika ..., maka ...”

Bagian ini akan membahas detail dari salah satu algoritma yang dapat menghasilkan aturan asosiasi. Algoritma itu disebut dengan Market Basket Analysis yang kerap kali disngkat menjadi MBA. Langkah-langkah pada Algoritma MBA dapat dibagi kedalam 3 (tiga) langkah besar, yang kemudian dapat diurai menjadi langkah-langkah yang lebih rinci. Kedua langkah besar itu adalah sebagai berikut:

− Langkah Besar Pertama, menetapkan besaran Φ (lihat pembahasan tentang konsep itemset sering), nilai minimum besaran support dan besaran confidence yang diinginkan untuk dipeuhi oleh aturan asosiasi yang ingin dihasilkan

− Langkah Besar Kedua, menetapkan semua itemset sering, yaitu itemset yang memiliki frekuensi itemset minimal sebesar bilangan Φ yang telah ditetapkan sebelumnya, dan

− Langkah Besar Ketiga, dari semua itemset sering, hasilkan aturan asosiasi yang memenuhi nilai minimum support dan confidence (yang juga telah ditetapkan).

Berikut ini adalah contoh penerapan Algoritma MBA pada masalah Aturan Asosiasi terhadap data belanja dari 14 orang pengunjung Toserba Favorit pada Tabel-4.1.

Langkah Besar Pertama Algoritma MBA Apa yang menjadi Langkah Besar Pertama dari Algoritma MBA? Langkah Besar Pertama dari Algoritma MBA adalah menetapkan:

− besarnya besaran Φ , dan nilai minimum support dan confidence, misalkan ditetapkan Φ=4, min (support) = 30%, dan min (confidence)= 70%

34

Page 38: Finalversione-learningcontent

Langkah Besar Kedua Algoritma MBA

Pada langkah ini kita akan menyusun semua semua itemset sering, yaitu itemset yang memiliki frekuensi itemset minimal sebesar bilangan Φ=4 yang telah ditetapkan pada Langkah Besar Pertama sebelumnya. Kita mulai terlebih dahulu dengan membahas setiap 1-itemset berikut ini:

− {Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash} dan {Tomatoes} adalah 1-itemset sering, karena itemset ini berhasil muncul melebihi Φ kali, atau 4 kali, dalam daftar D, atau, untuk mudahnya, Tabel-4.1,

dengan demikian didapat: F1={{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash}, {Tomatoes}} Kita lanjutkan dengan membahas setiap 2-itemset berikut ini:

− {Asparagus, Beans}, {Asparagus, Broccoli},{Asparagus, Corn}, {Asparagus, Green peppers}, {Asparagus, Squash}, {Asparagus, Tomatoes}, {Beans, Broccoli},{Beans, Corn}, {Beans, Green peppers}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Corn}, {Broccoli, Green peppers}, {Broccoli, Squash}, {Broccoli, Tomatoes}, {Corn, Green peppers}, {Corn, Squash}, {Corn, Tomatoes}, {Green peppers, Squash}, {Green peppers, Tomatoes} dan {Squash, Tomatoes}

− Pembaca dapat menjadikannya sebagai latihan, bahwa penelaahan yang mendalam terhadap keseluruhan 2-itemset di atas akan membawa kita pada suatu kesimpulan bahwa hanya {Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers} dan, {Corn, Tomatoes} yang merupakan 2-itemset sering, sehingga didapatkan:

F2={{Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers} dan, {Corn, Tomatoes}} Untuk meringankan kita dalam mengkaji F3, F4, F5 dan seterusnya, gunakan aturan berikut:

“Jika Z tidak merupakan itemset sering, maka AZ ∪ pasti bukan itemset sering, untuk setiap A” Aturan atau kaidah ini disebut Aturan A Priori. Sebagai contoh dari penerapan Aturan A Priori, adalah sebagai berikut. Dari pembicaraan sebelumnya didapatkan bahwa {Asparagus, Broccoli} tidak merupakan 2-itemset sering, maka menurut Aturan A Priori:

− {Asparagus,Broccoli,Corn}, yang merupakan gabungan dari 2-itemset {Asparagus, Broccoli}, yang tidak termasuk kedalam 2-itemset sering, dengan 1-itemset sering {Corn}, maka {Asparagus,Broccoli,Corn} tidak akan pernah menjadi 3-itemset sering

35

Page 39: Finalversione-learningcontent

Pembaca dapat menjadikannya sebagai latihan, bahwa penerapan Aturan A Priori terhadap seluruh anggota F2, hanya akan memberikan {Asparagus, Beans, Squash} sebagai satusatunya 3-itemset sering. sehingga didapatkan

F3 = {Asparagus, Beans, Squash}}

Selanjutnya, akan diperoleh:

φ==== 7654 FFFF

Jadi, secara ringkas, hasil dari penerapan Langkah Besar Kedua Algoritma MBA adalah diperolehnya himpunan itemset sering F1, F2 dan F3.

Langkah Besar Ketiga Algoritma MBA Pada Langkah Besar Ketiga ini, akan dibangun aturan asosiasi yang memenuhi nilai minimum support dan confidence (yang juga telah ditetapkan) dari semua itemset sering yang ada. Langkah rinci dari langkah besar ini adalah sebagai berikut:

− Pertama, dari semua itemset sering s yang ada di F2, F3, dan seterusnya, daftarkan semua himpunan bagian murni yang tak kosong dari dari s, sebutlah ss. Jadi:

o untuk s ={Asparagus, Beans}, didapat ss={Asparagus} atau ss={Beans} o untuk s ={Asparagus, Squash}, didapat ss={Asparagus} atau

ss={Squash} o untuk s ={Beans, Corn}, didapat ss={Beans} atau ss={Corn} o untuk s ={Beans, Squash}, didapat ss={Beans} atau ss={Squash} o untuk s ={Beans, Tomatoes}, didapat ss={Beans} atau ss={Tomatoes} o untuk s={Broccoli, Green peppers}, didapat ss={Broccoli} atau ss=

{Green peppers} o untuk s={Corn, Tomatoes}, didapat ss={Corn} atau ss={Tomatoes} o untuk s={Asparagus,Beans,Squash}, didapat ss={Asparagus}, atau

ss={Beans}, atau ss={Squash}, atau ss={Asparagus, Beans}, atau ss={Asparagus, Squash}, atau ss= {Beans, Squash}

− Kedua, bentuk aturan asosiasi yang berpolakan: “Jika ss maka (s-ss)” atau “s⇒ (s-ss)”

Untuk kemudahan pilihlah aturan yang hanya berkonsekuen sebuah item saja, jadi (s-ss) hanya beranggotakan sebuah item saja. Jadi untuk masalah Toserba Favorit didapatkan calon aturan asosiasi pada Tabel-4.2 berikut ini:

36

Page 40: Finalversione-learningcontent

Tabel-4.2 Dattar Calon Aturan Asosiasi

Dari itemset sering Dihasilkan Aturan Asosiasi Support Confidence {Asparagus, Beans} Jika beli Asparagus, maka beli Beans 5/14= 35.7% 5/6= 83.3% Jika beli Beans, maka beli Asparagus 5/14= 35.7% 5/10= 50.0%{Asparagus, Squash} Jika beli Asparagus, maka beli Squash 5/14= 35.7% 5/6= 83.3% Jika beli Squash, maka beli Asparagus 5/14= 35.7% 5/7= 71.4%{Beans, Corn} Jika beli Beans, maka beli Corn 5/14= 35.7% 5/10= 50.0% Jika beli Corn, maka beli Beans 5/14= 35.7% 5/8= 62.5%{Beans, Squash} Jika beli Beans, maka beli Squash 6/14= 42.9% 6/10= 60.0% Jika beli Squash, maka beli Beans 6/14= 42.9% 6/7= 85.7%{Beans, Tomatoes} Jika beli Beans, maka beli Tomatoes 4/14= 28.6% 4/10= 40.0% Jika beli Tomatoes, maka beli Beans 4/14= 28.6% 4/6= 66.7%{Broccoli, Green peppers} Jika beli Broccoli, maka beli Green peppers 4/14= 28.6% 4/5= 80.0% Jika beli Green peppers, maka beli Broccoli 4/14= 28.6% 4/5= 80.0%{Corn, Tomatoes} Jika beli Corn, maka beli Tomatoes 4/14= 28.6% 4/8= 50.0% Jika beli Tomatoes, maka beli Corn 4/14= 28.6% 4/6= 66.7%{Asparagus, Beans, Squash} Jika beli Asparagus dan Beans, maka beli Squash 4/14= 28.6% 4/5= 80.0% Jika beli Asparagus dan Squash, maka beli Beans 4/14= 28.6% 4/5= 80.0% Jika beli Beans dan Squash, maka beli Asparagus 4/14= 28.6% 4/6= 66.7%

− Ketiga, pilihlah hanya aturan asosiasi yang memenuhi nilai minimum (support)

dan minimum (confidence) saja. Adapun Aturan Asosiasi yang memenuhi batasan min (support) = 30%, dan min (confidence)= 70% adalah seperti tertera pada Tabel-4.3 berikut ini:

Tabel-4.3 Dattar Aturan Asosiasi yang Memenuhi Syarat min(support) = 30%, dan

min(confidence)= 70% Dari itemset sering Dihasilkan Aturan Asosiasi Support Confidence {Asparagus, Beans} Jika beli Asparagus, maka beli Beans 5/14= 35.7% 5/6= 83.3% {Asparagus, Squash} Jika beli Asparagus, maka beli Squash 5/14= 35.7% 5/6= 83.3% Jika beli Squash, maka beli Asparagus 5/14= 35.7% 5/7= 71.4% {Beans, Corn} Jika beli Corn, maka beli Beans 5/14= 35.7% 5/8= 62.5% {Beans, Squash} Jika beli Beans, maka beli Squash 6/14= 42.9% 6/10= 60.0% Jika beli Squash, maka beli Beans 6/14= 42.9% 6/7= 85.7%

4.5 Aturan Asosiasi: Pengembangan Selanjutnya Apakah Algoritma MBA merupakan satu-satunya algoritma bagi pemecahan masalah Aturan Asosiasi? Ternyata tidak! Para peneliti dan pakar Data Mining tetap tak pernah lelah mencoba merancang algoritma baru bagi pemecahan masalah Aturan Asosiasi. Pembaca yang menaruh minat untuk mendalami algoritma Aturan Asosiasi lainnya, berikut ini adalah algoritma sejenisnya (Berry dan Browne (2006)):

− Algoritma Generlized Association Rules, − Algoritma Quantitative Association Rule, − Algoritma Asynchronous Parallel Mining

37

Page 41: Finalversione-learningcontent

4.6 Aturan Asosiasi: Epilog Demikian kiranya menjadi jelas bagi pembaca hal-hal berikut ini yang terkait dengan masalah Aturan Asosiasi:

− istilah-istilah dasar pada masalah Aturan Asosiasi, − contoh prototipe masalah Aturan Asosiasi dan pengetahuan yang dihasilkannya

beserta interpretasinya, − detail langkah-langkah yang yang dijalani oleh salah satu algoritma yang

digunakan Data Mining dalam menjalankan fungsi mayor ketiganya, yaitu algoritma MBA (Market Basket Analysis), dan

Dengan pernah mencoba mendalami salah satu algoritma Aturan Asosiasi, yaitu MBA, penulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari algoritma lain bagi masalah ini.

4.7 Soal Latihan 1. Saya pernah bekerja di sebuah laboratorium lensa kontak, namun demikian saya tidak

berurusan dengan teknis pembuatan lensa kontak, melainkan sekedar sebagai petugas administrasi yang mencatat data para pasien. Data tersebut mencakup - sebenarnya tidak seluruhnya saya pahami, karena memang saya tak perlu memahaminya- usia, spectacle prescription, astigmatism, tear production rate dan recommended lenses. Berikut ini adalah data yang saya miliki dari beberapa pasien yang pernah menjadi tanggung-jawab saya:

Salah satu tugas Data Mining adalah menghasilkan aturan asosiasi Saya mohon bantuan anda untuk menghasilkan aturan tersebut agar kelak saya dapat memperkirakan rekomendasi tentang jenis lensa yang harus diberikan kepada para pasien pada masa mendatang!

38

Page 42: Finalversione-learningcontent

2. Sebuah perusahaan sebenarnya memiliki ribuan karyawan yang dicatat jabatannya,

jenis kelamin, umur dan kategori gajinya. Misalkan setelah disampel didapat data dari 11(sebelas) pegawai sebagai berikut:

Pegawai Jabatan Jenis

Kelamin Umur Asal Kategori

Gaji 1 Sevice Perempuan 45 Kota Besar Level-3 2 Sevice Laki-laki 25 Kota Besar Level-1 3 Sevice Laki-laki 33 Kota Kecil Level-2 4 Management Laki-laki 25 Kota Besar Level-3 5 Management Perempuan 35 Kota Kecil Lavel-4 6 Management Laki-laki 26 Kota Kecil Level-3 7 Management Perempuan 45 Kota Besar Level-4 8 Sales Perempuan 40 Kota Kecil Level-3 9 Sales Laki-laki 30 Kota Besar Level-2 10 Staff Perempuan 50 Kota Besar Level-2 11 Staff Laki-laki 25 Kota Kecil Level-1

Bangunlah aturan asosiasi yang dapat digunakan untuk dapat menentukan level gaji seorang pegawai, apabila tentang pegawai tersebut diketahui jabatan, jenis kelamin, umur dan asalnya!

3. Mahluk hidup bertulang belakang (vertebrate) biasa diklasifikasikan sebagai

mammal, reptile, fish, amphibian,dan bird. Seorang ayah pernah ditanya anaknya yang saat itu masih berstatus pelajar SMP, tentang bagaimana sebenarnya para pakar Biologi mengklasifikasikan mahluk hidup. Sang ayah berusaha sungguh-sungguh untuk memcarikan jawabannya. Dari sebuah perpustakaan umum sang ayah memperoleh data sebagai berikut:

The vertebrate data set

Name Body

Temperature Skin

Cover Gives Birth

Aquatic Creature

Aerial Creature

Has Legs Hibernates

Class Label

human warm-blooded hair yes no no yes no mammal python cold-blooded scales no no no no yes reptile salmon cold-blooded scales no yes no no no fish whale warm-blooded hair yes yes no no no mammal frog cold-blooded none no semi no yes yes amphibian

komodo cold-blooded scales no no no yes no reptile dragon bat warm-blooded hair yes no yes yes yes mammal

pigeon warm-blooded feathers no no yes yes no bird cat warm-blooded fur yes no no yes no mammal

leopard cold-blooded scales yes yes no no no fish shark turtle cold-blooded scales no semi no yes no reptile

penguin warm-blooded feathers no semi no yes no bird porcupine warm-blooded quills yes no no yes yes mammal

eel cold-blooded scales no yes no no no fish salamander cold-blooded none no semi no yes yes amphibian

39

Page 43: Finalversione-learningcontent

Sayangnya sang ayah toh tidak menemukan jawaban bagaimana para pakar biologi mengklasifikasikan mahluk hidup. Sebagai orang yang menguasai konsep-konsep Data Mining anda tentu dapat berkiprah dalam membantu sang ayah. a. Bila anda hendak membuat beberapa aturan asosiasi, variabel mana sajakah yang

akan menjadi predictor variable dan variable manakah yang akan menjadi target variable?

b. Dengan menetapkan Φ=2, buatlah aturan yang dapat membantu sang ayah! c. Katakanlah setelah anda menghasilkan aturan-aturan, tiba-tiba anda menyadari

bahwa mungkin aturan-aturan tersebut dapat dibuat lebih sederhana. Dengan menggunakan perhitungan koefisien korelasi/asosiasi yang pernah anda pelajari, tentukan field-field mana yang dapat dipertahankan dan mana yang dapat disisihkan?

40

Page 44: Finalversione-learningcontent

Daftar Pustaka Berry, M.W. dan Browne, M. (2006), Lecture Notes in Data Mining, World

Scientific, Singapore Larose, D.T. (2005), Discovering Knowledge in Data: an Introduction to

Data Mining, Wiley-Interscience, John Wiley & Sons, Inc., Hoboken, New Jersey, USA

41