Download - Bab 1 Data Mining
-
8/17/2019 Bab 1 Data Mining
1/29
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Saat ini, perkembangan teknologi telah memberikan pengaruh yang sangat besar di dalam
kehidupan manusia. Salah satu pengaruh tersebut di bidang informasi yaitu dalam aplikasi
database. Pada aplikasi database, informasi memegang peranan yang sangat penting dan
dibutuhkan dalam berbagai aspek kehidupan, baik dalam dunia pendidikan, bisnis,
perbankan, dan lain-lain. Dengan bermanfaatnya informasi tersebut, banyak perusahaan
berusaha untuk mengumpulkan informasi sebanyak banyaknya untuk mendapatkan
keuntungan yang maksimal.
Sebagai contoh dalam dunia bisnis seperti pada minimarket. Pada minimarket yang
setiap harinya terjadi transaksi penjualan. Hal ini memungkinkan data transaksi yang
diperoleh akan menjadi banyak dan menumpuk. Jika data dibiarkan saja, maka data tersebut
hanya akan menjadi sampah yang tidak berarti lagi.Oleh karena itu, diperlukan sebuah aplikasi yang mampu memilah dan memilih data,
sehingga bisa diperoleh informasi yang bermanfaat bagi penggunanya. Pemanfaatan
informasi dan pengetahuan yang terkandung di dalam banyaknya data tersebut, pada saat ini
disebut dengan data mining . Data mining dimaksudkan untuk memberikan solusi nyata bagi
para pengambil keputusan, untuk mengembangkan bisnis mereka. Data mining adalah suatu
istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database atausering disebut Knowledge Discovery in Database !DD".
#turan asosiasi atau sering disebut Association Rule, merupakan salah satu metode yang
digunakan untuk menemukan hubungan diantara data atau bagaimana suatu kelompok data
mempengaruhi suatu keberadaan data lain. #turan asosiasi merupakan salah satu metode
yang sering digunakan untuk mencari hubungan antara berbagai item. Sebagai contohnya,
dari sebuah himpunan data transaksi mungkin akan ditemukan kejadian berikut, dimana
seseorang yang membeli susu dalam transaksi yang sama akan membeli gula, atau seseorang
yang membeli sikat gigi dalam yang transaksi yang sama juga akan membeli odol.$etode asosiasi dikenal sebagai salah satu metode data mining yang menjadi dasar dari
berbagai metode data mining lainnya. Salah satu tahap dari analisis asosiasi yang disebut
analisis pola frekuensi tinggi frequent pattern mining " menarik perhatian banyak peneliti
untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat
diketahui dengan dua parameter, support nilai penunjang" yaitu prosentase kombinasi item
~ 1 ~
-
8/17/2019 Bab 1 Data Mining
2/29
tersebut. dalam database dan confidence nilai kepastian" yaitu kuatnya hubungan antar item
dalam aturan assosiatif. #nalisis asosiasi didefinisikan suatu proses untuk menemukan semua
aturan assosiatif yang memenuhi syarat minimum untuk support minimum support " dan
syarat minimum untuk confidence minimum confidence" Pramudiono, %&&'".
#da beberapa algoritma yang sudah dikembangkan mengenai aturan asosiasi, $etode ini
terbagi atas beberapa algoritma yaitu algoritma #priori dan algoritma (P-)ro*th. #priori
merupakan algoritma klasik yang sering dipakai. +de dasar dari algoritma ini adalah dengan
mengembangkan frequent itemset , yaitu dengan cara menggunakan satu item dan kemudian
secara rekursif mengembangkan frequent itemset tersebut dengan dua item, tiga item dan
seterusnya hingga frequent itemset dengan semua ukuran. ntuk mengembangkan frequent
set dengan dua item, dapat menggunakan frequent set item. #lasannya adalah bila set satu
item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut.
(P-)ro*th adalah salah satu alternatif algoritma yang dapat digunakan untuk
menentukan himpunan data yang paling sering muncul freuent itemset" dalam sebuah
kumpulan data. (P-gro*th menggunakan pendekatan yang berbeda dari paradigma yang
selama ini sering digunakan, yaitu paradigma apriori.
a.2. Rumusan Masalah
a" #pa yang dimaksud dengan data,informasi dan data mining b" /agaimana konsep dari asosiasi
c" /agaimana proses #sosiasion rule
d" #pa saja definisi umum yang biasa digunakan dalam asosiasion rule e" /agaimana proses dari algoritma apriori dan algoritma (P-)ro*th
a.3. Tujuan
a" $ampu memahami apa yang dimaksud dengan data dan data mining b" $emahami konsep dari asosiasi
c" $emahami proses asosiasi
d" $emahami definisi umum yang biasa digunakan dalam asosiasion rule
e" $emahami proses dari algoritma apriori dan algoritma (P-)ro*th
BAB II
PEMBAHAAN
2.1. Pengert!an "ata "an "ata m!n!ng
~ 2 ~
-
8/17/2019 Bab 1 Data Mining
3/29
Data merupakan fakta yang dikumpulkan, disimpan, dan diproses oleh sebuah sistem
informasi. Sedangkan informasi merupakan suatu hasil dari pemrosesan data menjadi suatu
yang bermakna bagi yang menerimanya, informasi sifatnya memberi tahu.
Data mining adalah proses untuk menemukan interesting kno*ledge dari sejumlah data
besar yang disimpan dalam database, data *arehouse, atau media penyimpanan yang
lainnya.0 Han, !amber, %&&1". Data mining diterapkan dengan paradigma untuk melihat
informasi yang tersembunyi.Data mining muncul berdasarkan fakta bah*a pertumbuhan data yang sangat pesat, tetapi
minim pengetahuan apa yang ada di dalam data tersebut. #lasan memilih data mining
dibandingkan alanisis data secara tradisional adalah2
1. Data mining mampu menangani jumlah data kecil sampai data yang berukuran sangat besar.
%. Data mining mampu menangani data yang mempunyai banyak dimensi, yaitu puluhan
sampai ribuan dimensi.3. Data mining mampu menangani data dengan komleksitas yang tinggi, misalnya data stream,
data spasial, teks, *eb, dan lain-lain.
Dengan menggunakan data mining,para pelaku bisnis dapat memanfaatkan data yang ada
untuk memecahkan masalah bisnis mereka yang umumnya dihadapi adalah 2 /agaimana menyajikan ad4ertensi kepada target yang tepat sasaran
$enyajikan halaman *eb yang khusus setiap pelanggan
$enampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu
$engklasifikasi artikel-artikel secara otomatis
$engelompokkan pengunjung *eb yang memiliki kesamaan karasteristik tertentu $engestimasi data yang hilang
$emprediksi kelakuan di masa yang akan datang
Penggalian data merupakan salah satu cara yang cukup efektif untuk mengetahui adanya
serangkaian pola informasi dari sejumlah besar data yang ada. Pola informasi yang didapat
akan menjadi sangat berarti apabila bersifat implisit, belum diketahui sebelumnya, dan
bermanfaat.
Pengel#m$#kan Data Mining
5erdapat tiga metode utama dalam data mining yaitu 6782
a. Supervised Learning Pembelajaran dengan )uru"
~ 3 ~
-
8/17/2019 Bab 1 Data Mining
4/29
-
8/17/2019 Bab 1 Data Mining
5/29
memuat item susu. Sedangkan >&? dari seluruh transaksi yang ada di database memuat
ketiga item itu. BDapat juga diartikan2 BSeorang konsumen yang membeli roti dan mentega
punya kemungkinan @&? untuk juga membeli susu. #turan ini cukup signifikan karena
me*akili >&? dari catatan transaksi selama ini.B
)ambar 1 2 mar$et bas$et analysis
#nalisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi
yang memenuhi syarat minimum untuk support %minimum support& dan syarat minimum
untuk confidence %minimum confidence&.
%.%.1. Market Basket Anal&s!s
'ar$et (as$et Analysis adalah suatu cara yang digunakan untuk
menganalisis data penjualan dari suatu perusahaan. Proses ini menganalisis
buying #abits konsumen dengan menemukan asosiasi antar item)item yang
berbeda yang diletakkan konsumen dalam s#opping bas$et )regorius S /udhi,
%&&'". Hasil yang telah didapatkan ini nantinya dapat dimanfaatkan oleh
perusahaan retail seperti toko atau s*alayan untuk mengembangkan strategi
pemasaran dengan melihat item)item mana saja yang sering dibeli secara
bersamaan oleh konsumen.
ntuk beberapa kasus, pola dari item)item yang dibeli secara bersamaan
oleh konsumen mudah ditebak, misalnya susu dibeli secara bersamaan dengan
roti. Camun bisa saja terdapat suatu pola pembelian item yang tidak terpikirkan
~ 5 ~
-
8/17/2019 Bab 1 Data Mining
6/29
sebelumnya, misalnya pembelian minyak goreng dengan deterjen. Pola ini tidak
pernah terpikirkan sebelumnya karena minyak goreng dan deterjen tidak ada
hubungan sama sekali, baik sebagai barang pelengkap maupun barang pengganti.
Hal ini mungkin tidak terpikirkan sebelumnya sehingga tidak dapat diantisipasi
jika terjadi sesuatu, seperti kekurangan stok deterjen misalnya. +nilah salah satu
manfaat yang dapat diperoleh dari mar$et bas$et analysis. Dengan melakukan
proses ini secara otomatis seorang manajer tidak perlu mengalami kesulitan untuk
menemukan pola item apa saja yang mungkin dibeli secara bersamaan.
%.%.%. Ass#'!at!#n rule Association Rule 'ining meliputi dua tahap lmer, Da4id, %&&%"2
*. $encari kombinasi yang paling sering terjadi dari suatu itemset .
+. $endefinisikan ondition dan Result untuk conditional association rule".
Dalam menentukan suatu association rule, terdapat suatu interestingness
measure ukuran kepercayaan" yang didapatkan dari hasil pengolahan data dengan
perhitungan tertentu. mumnya ada dua ukuran, yaitu1. Support , yaitu suatu ukuran yang menunjukkan seberapa besar tingkat
dominasi suatu itemset dari keseluruhan transaksi. kuran ini menentukan
apakah suatu itemset layak untuk dicari confidence-nya misalnya, dari
keseluruhan transaksi yang ada, seberapa besar tingkat dominasi yang
menunjukkan bah*a item # dan / dibeli bersamaan".%. onfidence, yaitu suatu ukuran yang menunjukkan hubungan antar dua item
secara conditional misal, seberapa sering item / dibeli jika orang membeli
item #".
!edua ukuran ini nantinya berguna dalam menentukan interesting
association rules, yaitu untuk dibandingkan dengan batasan t#res#old " yang
ditentukan oleh user. /atasan tersebut umumnya terdiri dari minimum support
dan minimum confidence. dimana hal tersebut ditempuh dengan cara sebagai
berikut 2
*. $encari semua frequent itemset yaitu itemset dengan nilai support = minimum
support yang merupakan ambang batas yang diberikan oleh user . Dimana
itemset itu merupakan himpunan item yaitu kombinasi produk yang dibeli.+. $encari aturan asosiasi yang confidence dari frequent itemset yang didapat.
~ 6 ~
-
8/17/2019 Bab 1 Data Mining
7/29
-. Sedangkan tahap selanjutnya adalah mencari rule)rule yang sesuai dengan
target user yang didapat dari proses association rule mining sebelumnya.
Rule)rule yang didapat mendeskripsikan kombinasi itemset yang dijadikan
pertimbangan di dalam membuat kesimpulan.
2.3. Pr#ses As#s!as!#n Rule
#pabila dilihat dari $etodologi dasar analisis asosiasi, maka cara kerja dari analisis ini
terbagi menjadi dua tahap 2
a" #nalisa pola frekuensi tinggi
5ahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support
dalam database. Cilai support sebuah item diperoleh dengan rumus berikut2
sedangkan nilai support dari % item diperoleh dari rumus berikut2
b" Pembentukan aturan assosiati
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang
memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan
assosiatif # ke / Cilai confidence dari aturan # ke / diperoleh dari rumus berikut2
2.(. De)!n!s! Umum Dalam As#s!#as!#n rule
/eberapa istilah yang digunakan dalam #sosioasion rule antara lain2a. Support dukungan"2 probabilitas pelanggan membeli beberapa produk secara
bersamaan dari seluruh transaksi. Support untuk aturan E=
-
8/17/2019 Bab 1 Data Mining
8/29
c. 'inimum support 2 parameter yang digunakan sebagai batasan frekuensi kejadian atau
support count yang harus dipenuhi suatu kelompok data untuk dapat dijadikan aturan.d. 'inimum confidence2 parameter yang mendefinisikan minimum le4el dari confidence
yang harus dipenuhi oleh aturan yang berkualitas.
e. +temset2 himpunan dari item-item yang muncul bersama samaf. Support count 2 frekuensi kejadian untuk sebuah kelompok produk atau itemset dari
seluruh transaksi.
g. !andidat itemset 2 itemset -itemset yang akan dihitung support count -nya.h. Large itemset 2 itemset yang sering terjadi, atau itemset -itemset yang sudah mele*ati
batas minimum support yang telah diberikan.
Sedangkan notasi-notasi yang digunakan dalam algoritma apriori antara lain2
a. 9k adalah kandidat $ -itemset, dimana $ menunjukkan jumlah pasangan item.
b. Fk adalah large k-itemset .c. D adalah basis data transaksi penjualan dimana GDG adalah banyaknya transaksi di tabel
basis data.
2.*. Alg#r!tma A$r!#r!
#lgoritma #priori adalah salah satu algoritma yang melakukan pencarian frequent
itemset dengan menggunakan teknik association rule r*in, %&&7". #lgoritma #priori
menggunakan pengetahuan frekuensi atribut yang telah diketahui sebelumnya untuk
memproses informasi selanjutnya. Pada algoritma #priori menentukan kandidat yang
mungkin muncul dengan cara memperhatikan minimum support dan minimum confidence.
Support adalah nilai pengunjung atau persentase kombinasi sebuah item dalam database.
Iumus support adalah sebagai berikut 2
Support #" = jumlah transaksi mengandung # 5otal transaksi" K 1&&? L. 1"
Sedangkan confidence adalah nilai kepastian yaitu kuatnya hubungan antar item dalam
sebuah Apriori. onfidence dapat dicari setelah pola frekuensi munculnya sebuah item
ditemukan. Iumus untuk menghitung confidence adalah sebagai berikut 2
9ontoh misalnya ditemukan aturan #/ maka2
onfidence P/G#" =Total transaksimengandung A danB
Transaksimengandung A
~ 8 ~
-
8/17/2019 Bab 1 Data Mining
9/29
Proses utama yang dilakukan dalam algoritma #priori untuk mendapat frequent itemset
yaitu 2
1. 0oin penggabungan"
Proses ini dilakukan dengan cara pengkombinasian item dengan item yang lainnya hingga
tidak dapat terbentuk kombinasi lagi.%. 1rune pemangkasan"
Proses pemangkasan yaitu hasil dari item yang telah dikombinasikan kemudian dipangkas
dengan menggunakan minimum support yang telah ditentukan oleh user.
Sedangkan cara kerja dari #lgoritma #priori sendiri terbagi dari beberapa tahap yang
disebut iterasi. 5ahapan-tahapan tersebut antara lain adalah 2
1. Pembentukan kandidat itemset, kandidat k-itemset dibentuk dari kombinasi k-1"-itemset
yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma #priori adalah adanya pemangkasan kandidat k-itemset yang subsetnya yang berisi k-1 item tidak termasuk
dalam pola frekuensi tinggi dengan panjang k-1.
%. Perhitungan support dari tiap kandidat kitemset. Support dari tiap kandidat k-itemset
didapat dengan menscan database untuk menghitung jumlah transaksi yang memuat
semua item di dalam kandidat k-itemset tersebut. +ni juga merupakan ciri dari algoritma
apriori dimana diperlukan perhitungan dengan scan seluruh database sebanyak k-itemset
terpanjang.
3. 5etapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset
ditetapkan dari kandidat k-itemset yang supportnya lebih besar dari minimum support.>. /ila tidak didapat pola frekuensi tinggi maka seluruh proses dihentikan. /ila tidak, maka
k tambah satu dan kembali ke bagian 1.
CONTOH KASUS ALGORITMA APRIORI
5#/F 1. 9OC5OH 5I#CS#!S+ PCJ#F#C S#AI
~ 9 ~
-
8/17/2019 Bab 1 Data Mining
10/29
Definisi-definisi yang terdapat pada #ssociation Iule
1. + adalah himpunan yang tengah dibicarakan.
9ontoh2:#sparagus, /eans, L, 5omatoes;
%. D adalah Himpunan seluruh transaksi yang tengah dibicarakan9ontoh2
:5ransaksi 1, transaksi %, L, transaksi 1>;
3. Proper Subset adalah Himpunan /agian murni9ontoh2
#da suatu himpunan #=:a,b,c,;
Himpunan /agian dari # adalahHimpunan !osong = :;
Himpunan 1 nsur = :a;,:b;,:c;
Himpunan % nsur = :a,b;,:a,c;,:b,c;Himpunan 3 nsur = :a,b,c,;Proper subset nya adalah Himpunan 1 nsur dan Himpunan % nsur
>. +tem set adalah Himpunan item atau item-item di +
9ontoh2#da suatu himpunan #=:a,b,c,;
+tem set nya adalah
:a;M:b;2:c;M:a,b;M:a,c;M:b,c;!- item set adalah +tem set yang terdiri dari ! buah item yang ada pada +. +ntinya ! itu
adalah jumlah unsur yang terdapat pada suatu Himpunan
9ontoh2 3-item set adalah yang bersifat 3 unsur@. +tem set (rekuensi adalah Jumlah transaksi di + yang mengandung jumlah item set tertentu.
+ntinya jumlah transaksi yang membeli suatu item set.
9ontoh2!ita gunakan tabel transaksi penjualan sayur di atas
• frekuensi +tem set yang sekaligus membeli /eans dan /rocolli adalah 3
~ 10 ~
-
8/17/2019 Bab 1 Data Mining
11/29
• frekuensi item set yang membeli sekaligus membeli /eans, Suash dan 5omatoes adalah
%N. (rekuen +tem Set adalah item set yang muncul sekurang-kurangnya sekian0 kali di D. !ata
sekian0 biasanya di simbolkan dengan . merupakan batas minimum dalam suatu
transaksi9ontoh2
Pertama kita tentukan = 3, karena jika tidak di tentukan maka maka frekuen item set tidak
dapat di hitung. Jika =3 untuk :#sparagus, /eans; apakah frekuen +tem set Jika kita
hitung maka jumlah transaksi yang membeli asparagus sekaligus membeli beans adalah @.
!arena @
-
8/17/2019 Bab 1 Data Mining
12/29
-
8/17/2019 Bab 1 Data Mining
13/29
1. Pisahkan masing-masing item yang dibeli
%. !emudian /uat 5abel seperti di ba*ah ini dan hitung jumlahnya2
3. 5entukan $isalkan kita tentukan = 3, maka kita dapat menentukan frekuen itemset. Dari tabel di
atas diketahui total untuk transaksi k = 1, semuanya lebih besardari . $aka2 (1= ::#;,
:/;, :9;, :D;, :;;ntuk k = % % unsur", diperlukan tabel untuk tiap-tiap pasang item. Himpunan yang
mungkin terbentuk adalah2 :#,/;, :#,9;, :#,D;, :#,;, :/,9;, :/,D;, :/,;, :9,D;,
:9,;, :D,;.
5abel-tabel untuk calon % item set
~ 13 ~
-
8/17/2019 Bab 1 Data Mining
14/29
Dari tabel-tabel % unsur di atas, P artinya item-item yang dijual bersamaan, sedangkan S
berarti tidak ada item yang dijual bersamaan atau tidak terjadi transaksi. Q
melambangkan jumlah (rekuensi item set.
Jumlah frekuensi item set harus lebih besar atau sama dengan jumlah (rekuensi item set
Q
-
8/17/2019 Bab 1 Data Mining
15/29
>. 5entukan ss-s" sebagai antecedent dan s sebagai conseuent dari (k yang telah didapat Pada
(% didapat himpunan (%= ::9,D;,:9,;,:D,;; $aka dapat disusun2
• ntuk :9,D;2
Jika ss-s" = 9, Jika s = D, $aka R+f buy 9 then buy D
Jika ss-s" = D, Jika s = 9, $aka R+f buy D then buy 9
• ntuk :9,;2
Jika ss-s" = 9, Jika s = , $aka R+f buy 9 then buy
Jika ss-s" = , Jika s = 9, $aka R+f buy then buy 9
• ntuk :D,;2
Jika ss-s" = D, Jika s = , $aka R+f buy D then buy Jika ss-s" = , Jika s = D, $aka R+f buy then buy D
@. Dari langkah di atas, kita mendapatkan N rule yang dapat digunakan, yaitu2
• +f buy 9 then buy D
• +f buy D then buy 9
• +f buy 9 then buy
• +f buy then buy 9
• +f buy D then buy
• +f buy then buy D
N. Hitung support dan confidence
Sehingga didapat table sebagai berikut2
~ 15 ~
-
8/17/2019 Bab 1 Data Mining
16/29
-
8/17/2019 Bab 1 Data Mining
17/29
-
8/17/2019 Bab 1 Data Mining
18/29
1. (P-5ree dibentuk oleh sebuah akar yang diberi label null , sekumpulan upapohon yang
beranggotakan item-item tertentu, dan sebuah tabel frequent #eader.%. Setiap simpul dalam (P-tree mengandung tiga informasi penting, yaitu label item
menginformasikan jenis item yang direpresentasikan simpul tersebut, support count ,
merepresentasikan jumlah lintasan transaksi yang melalui simpul tesebut, dan pointer
penghubung yang menghubungkan simpul-simpul dengan label item sama antar-lintasan,
dintandai dengan garis panah putus-putus.
+#nt#h
$isalkan diberikan tabel data transaksi sebagai berikut, dengan minimum support count 45%
Co 5ransaksi1 a,b
% b,c,d,g,h
3 a,c,d,e,f
> a,d,e
@ a,b,T,c
N a,b,c,d
' a,r
a,b,c
7 a,b,d
1& b,c,e
Ta:el 1. 5abel data transaksi mentah
(rekuensi kemunculan tiap item dapat dilihat pada tabel berikut 2
+tem (rekuensi
a
b '
c N
d @
e 3
f 1r 1
T 1
g 1
h 1
Ta:el 2. (rekuensi kemunculan tiap karakter
~ 18 ~
-
8/17/2019 Bab 1 Data Mining
19/29
Setelah dilakukan pemindaian pertama didapat item yang memiliki frekuensi di atas
support count 45% adalah a,b,c,d, dan e. !elima item inilah yang akan berpengaruh dan akan
dimasukkan ke dalam (P-tree, selebihnya r,T,g, dan h" dapat dibuang karena tidak berpengaruh
signifikan.
5abel berikut mendata kemunculan item yang frequent dalam setiap transaksi, diurut
berdasarkan yang frekuensinya paling tinggi.
5+D 5ransaksi
1 :a,b;
% :b,c,d;
3 :a,c,d,e;
> :a,d,e;
@ :a,b,c;
N :a,b,c,d;
' :a; :a,b,c;
7 :a,b,d;
1& :b,c,e;
Ta:el 3. 5abel data transaksi
)ambar di ba*ah ini memberikan ilustrasi mengenai pembentukan (P-tree setelah
pembacaan 5+D 1.
8am:ar 1 Hasil pembentukan (P-tree setelah pembacaan 5+D 1
~ 19 ~
-
8/17/2019 Bab 1 Data Mining
20/29
8am:ar 2 Hasil Pembentukan (P U5ree setelah pembacaan 5+D %
8am:ar 3 Hasil Pembentukan (P-5ree setelah pembacaan 5+D 3
8am:ar ( Hasil Pembentukan (P-5ree setelah pembacaan 5+D 1&
Diberikan 1& data transaksi dengan @ jenis item seperti pada tabel di atas. )ambar 1 U >
menunjukkan proses terbentuknya (P U5ree setiap 5+D dibaca. Setiap simpul pada (P-5ree
mengandung nama sebuah item dan counter support yang berfungsi untuk menghitung frekuensi
kemunculan item tersebut dalam tiap lintasan transaksi.
!1)tree yang merepresentasi$an data transa$si pada tabel +.* dibentu$ dengan cara
sebagai beri$ut6
1. !umpulan data dipindai pertama kali untuk menentukan support count dari setiap item. +tem
yang tidak frequent dibuang, sedangkan frequent item dimasukkan dan disusun dengan urutan
menurun, seperti yang terlihat pada tabel %.1.
~ 20 ~
-
8/17/2019 Bab 1 Data Mining
21/29
%. Pemindaian kedua, yaitu pembacaan 5+D pertama :a,b; akan membuat simpul a dan b,
sehingga terbentuk lintasan transaksi CullRaRb. Support count dari setiap simpul bernilai
a*al 1
3. Setelah pembacaan transaksi kedua :b,c,d;, terbentuk lintasan kedua yaitu CullRbRcRd.
Support count masing-masing count juga bernilai a*al 1. Valaupun b ada pada transaksi
pertama, namun karena prefi7 transaksinya tidak sama, maka transaksi kedua ini tidak bisa
dimampatkan dalam satu lintasan.
>. 5ransaksi keempat memiliki prefi7 transaksi yang sama dengan transaksi pertama, yaitu a,
maka lintasan transaksi ketiga dapat ditimpakan di a, sambil menambah support count dari a,
dan selanjutnya membuat lintasan baru sesuai dengan transaksi ketiga.lihat gambar %.3"
@. Proses ini dilanjutkan sampai (P-tree berhasil dibangun berdasarkan tabel data transaksi
yang diberikan.
: Penera$an Alg#r!tma P;8r#9th
Setelah tahap pembangunan (P-tree dari sekumpulan data transaksi, akan diterapkan
algoritma (P-gro*th untuk mencari frequent itemset yang signifikan. #lgoritma (P-gro*th
dibagi menjadi tiga langkah utama, yaitu 2
1. 5ahap Pembangkitan onditional 1attern (ase
onditional 1attern (ase merupakan subdatabase yang berisi prefi7 pat# lintasan prefiK"
dan suffi7 pattern pola akhiran". Pembangkitan conditional pattern base didapatkan
melalui (P-tree yang telah dibangun sebelumnya.
%. 5ahap Pembangkitan onditional (P-tree
Pada tahap ini, support count dari setiap item pada setiap conditional pattern base
dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama
dengan minimum support count 4 akan dibangkitkan dengan conditional (P-tree.3. 5ahap Pencarian frequent itemset #pabila 9onditional (P-tree merupakan lintasan
tunggal single pat#&, maka didapatkan frequent itemset dengan melakukan kombinasi
item untuk setiap conditional (P-tree. Jika bukan lintasan tunggal, maka dilakukan
pembangkitan (P-gro*th secara rekursif.
!etiga tahap tersebut merupakan langkah yang akan dilakukan untuk mendapat frequent
itemset, yang dapat dilihat pada algoritma berikut 2
~ 21 ~
-
8/17/2019 Bab 1 Data Mining
22/29
)ambar #lgoritma (P-)ro*th
#kan dicoba menerapkan algoritma (P-gro*th pada kasus contoh di atas.
Fangkah-langkah yang harus ditempuh akan dijelaskan pada bagian berikut ini.
. Proses pembentukan dapat dilihat pada gambar berikut 2
8am:ar Fintasan yang mengandung simpul e
~ 22 ~
-
8/17/2019 Bab 1 Data Mining
23/29
8am:ar Fintasan mengandung simpul d
8am:ar Fintasan mengandung simpul c
8am:ar Fintasan mengandung simpul b
8am:ar Fintasan mengandung simpul a
~ 23 ~
-
8/17/2019 Bab 1 Data Mining
24/29
#lgoritma (P-gro*th menemukan frequent itemset yang berakhiran suffi7 tertentu dengan
menggunakan metode divide and conquer untuk memecah problem menjadi subproblem yang
lebih kecil.
9ontohnya, jika kita ingin menemukan semua frequent itemset yang berakhiran e. Oleh
karena itu, kita harus mengecek apakah support count dari e memenuhi minimum support count
45%. !arena support count dari e adalah 3, dan 3W 4, maka e adalah item yang frequent.
Setelah mengetahui bah*a item e adalah item yang freuent, maka subproblem selanjutnya
adalah menemukan frequent itemset dengan akhiran de, ce, be, dan ae. Dengan menggabungkan
seluruh solusi dari subproblem yang ada, maka himpunan semua frequent itemset yang
berakhiran item e akan didapatkan.
ntuk lebih memperjelas, dapat dilihat contoh menemukan frequent itemset yang
berakhiran dengan item e di ba*ah ini
8am:ar #da lintasan yang tidak berakhir di e, yaitu CullRbRc
1. Fangkah pertama yang dilakukan adalah membangun sebuah upapohon (P-tree dengan
hanya menyertakan lintasan yang berakhir di e.
%. Support count dari item e dihitung dan dibandingkan dengan minimum support count 45-.
!arena memenuhi, maka :e; termasuk frequent itemset , karena support count5+.
3. !arena item e frequent, maka perlu dipecahkan subproblem untuk menemukan frequent
itemset yang berkahiran dengan de, ce, be, dan ae. Sebelum meme4ahkan subproblem ini,
~ 24 ~
-
8/17/2019 Bab 1 Data Mining
25/29
maka upapohon (P-tree tersebut harus diubah terlebih dahulu menjadi conditional (P-tree.
onditional (P-tree mirip dengan (P-tree biasa, namun conditional !1)tree dimaksudkan
untuk mencari frequent itemset yang berakhiran item tertentu.
>. onditional (P-tree dapat dibentuk dengan cara 2
8am:ar Semua simpul e dibuang, Support count simpul di atasnya sudah diperbaharui
a. Setiap lintasan yang tidak mengandung e dibuang. Pada contoh, lintasan terkanan,
terdapat lintasan yang tidak mengandung e, yaitu nullRbRc. Fintasan ini dapat dibuang
dengan cara mengurangi support count menjadi 1, sehingga lintasan tersebut hanya
mengandung transaksi :b,c,e;, seperti pada gambar di atas.
b. Setelah semua lintasan berakhir di e, maka simpul e dapat dibuang, karena setiap nilai
support count pada simpul orang tuanya telah mencerminkan transaksi yang berakhir di
e. Subproblem selanjutnya yang harus dipecahkan adalah mencari lintasan frequent
itemset yang berakhir di de, ce, be, dan ae.
8am:ar onditional !1)tree untu$ e lintasan mengandung be dihapus, karena tidak
frequent ".
~ 25 ~
-
8/17/2019 Bab 1 Data Mining
26/29
c. !arena nilai support count dari b adalah 1, yang berarti transaksi yang mengandung b
dan e hanya 1 transaksi, maka berdasarkan prinsip anti-monotone heuristic, simpul b dan
lintasan yang mengandung be dapat dibuang, karena jika item b tidak freuent, maka
setiap transaksi yang berakhiran be juga tidak frequent. 5erbentuk onditional !1)tree
untuk e, seperti pada gambar di atas.
@. (P-tree menggunakan onditional (P-tree untuk membangun pohon lintasan prefiK untuk
menemukan frequent itemset yang berakhir dengan pasangan item de,ce, dan ae.
N. ntuk Fintasan PrefiK de, yang dibentuk dari onditional !1)tree untuk item e dapat dilihat
pada gambar berikut
8am:ar Pohon PrefiK yang berakhir di de
'. Dengan menjumlahkan support count dari d, yang tidak lain adalah jumlah frequent itemset
yang berakhir di de, didapat bah*a :d,e; juga termasuk dalam frequent itemset.
. Selanjutnya #lgoritma (P-tree akan mengulangi langkah yang sama dengan langkah ketiga,
sehingga didapatkan conditional !1)tree untu$ de hanya berisi satu daun, yaitu a, dengan
support count %. Sehingga :a,d,e; termasuk dalam frequent itemset.
7. Subproblem berikutnya yaitu dengan menemukan frequent itemset yang berakhiran dengan
ce. Didapat :c,e; juga merupakan frequent itemset. /egitupula dengan :a,e;.
Setelah memeriksa frequent itemset untuk beberapa akhiran suffi7", maka didapat hasil yangdirangkum dalam tabel berikut2
Suffi7 !requent 3temset
:e;,:d,e;,:a,d,e;,:c,e;,:a,e;
D :d;,:c,d;,:b,c,d;,:a,c,d;,:b,d;,:a,b,d;,:a,d;
9 :c;,:b,c;,:a,b,c;,:a,c;
/ :b;,:a,b;
~ 26 ~
-
8/17/2019 Bab 1 Data Mining
27/29
# :a;
Dengan metode divide and conquer ini, maka pada setiap langkah rekursif, algoritma (P-gro*th
akan membangun sebuah conditional !1)tree baru yang telah diperbaharui nilai support count,
dan membuang lintasan yang mengandung item-item yang tidak frequent lagi.
~ 27 ~
-
8/17/2019 Bab 1 Data Mining
28/29
BAB III
%EIMPULAN
3.1. %es!m$ulan
/eberapa kesimpulan yang dapat ditarik dari penulisan makalah ini adalah Penggunaan
metode analisis keranjang pasar sangat membantu dalam mengidentifikasi item-item produk
yang mungkin dibeli bersamaan dengan produk lain. algoritma Apriori membutuhkan *aktu
komputansi yang lama untuk mendapatkan frequent itemsets. !arena berulang kali
melakukan pemindaian data. Selain itu algoritma ini membutuhkan alokasi memori yang
besar untuk melakukan pencarian itemsets. !1)2ree yang terbentuk dapat memampatkan data transaksi yang memiliki memilki item
yang sama, sehingga penggunaan memori komputer lebih sedikit, dan proses pencarian
frequent itemset menjadi lebih cepat. !1)"rowt# hanya membutuhkan dua kali scanning
database dalam mencari frequent itemsets sehingga *aktu yang dibutuhkan pun menjadi
relatif singkat dan efisien.
3.2. aran
Pembuatan makalah ini sangat jauh dari kesempurnaan, karena keterbatasan sumber yang
kami peroleh. Sehingga isi dari makalah ini masih bersifat umum, oleh karena itu penulis
merasa sangat mengharapkan saran dari para pembaca yang bersifat membangun agar kiranya
kami mampu mengisi kekurangan itu dengan saran dari para pembaca. Dan semoga makalah
yang penulis buat ini dapat bermanfaat bagi para pembaca.
~ 28 ~
-
8/17/2019 Bab 1 Data Mining
29/29
DATAR PUTA%A
r*in. %&&7. Analisis 'ar$et (as$et Dengan Algoritma Apriori dan !1)"rowt#. niversitas
Sriwi8aya.0urnal.
Han, Jia*eiM !amber, $icheline. %&&N . Data 'ining 6oncepts and 2ec#niques. San
(rancisco2 $organ !aufmann.
Johan. %&1&. Analisa Keran8ang 1asar dengan Algoritma Apriori pada Data 2ransa$si 'ini
'ar$et Lima (intang . Stikom Pelita +ndonesia 2 Pekanbaru.
Oli4ia, $erry. %&13. Association Rule %Algoritma A 1riori&. ni4ersitas )unadarma.
Sari, +ndah $ulia. Dkk. %&13. Algoritma !1)"rowt#. ni4ersitas Hasanuddin 2 $akassar.
Setia*ati, De4i Dinda. 1enggunaan 'etode Apriori ntu$ analisis Keran8ang 1asar pada
Data 2ransa$si 1en8ualan 'inimar$et 'engguna$an 0ava 9 'yS:L. ni4ersitas
)unadarma 2 Depok.