bab 1 data mining

8/17/2019 Bab 1 Data Mining

1/29

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Saat ini, perkembangan teknologi telah memberikan pengaruh yang sangat besar di dalam

kehidupan manusia. Salah satu pengaruh tersebut di bidang informasi yaitu dalam aplikasi

database. Pada aplikasi database, informasi memegang peranan yang sangat penting dan

dibutuhkan dalam berbagai aspek kehidupan, baik dalam dunia pendidikan, bisnis,

perbankan, dan lain-lain. Dengan bermanfaatnya informasi tersebut, banyak perusahaan

berusaha untuk mengumpulkan informasi sebanyak banyaknya untuk mendapatkan

keuntungan yang maksimal.

Sebagai contoh dalam dunia bisnis seperti pada minimarket. Pada minimarket yang

setiap harinya terjadi transaksi penjualan. Hal ini memungkinkan data transaksi yang

diperoleh akan menjadi banyak dan menumpuk. Jika data dibiarkan saja, maka data tersebut

hanya akan menjadi sampah yang tidak berarti lagi.Oleh karena itu, diperlukan sebuah aplikasi yang mampu memilah dan memilih data,

sehingga bisa diperoleh informasi yang bermanfaat bagi penggunanya. Pemanfaatan

informasi dan pengetahuan yang terkandung di dalam banyaknya data tersebut, pada saat ini

disebut dengan data mining . Data mining dimaksudkan untuk memberikan solusi nyata bagi

para pengambil keputusan, untuk mengembangkan bisnis mereka. Data mining adalah suatu

istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database atausering disebut Knowledge Discovery in Database !DD".

#turan asosiasi atau sering disebut Association Rule, merupakan salah satu metode yang

digunakan untuk menemukan hubungan diantara data atau bagaimana suatu kelompok data

mempengaruhi suatu keberadaan data lain. #turan asosiasi merupakan salah satu metode

yang sering digunakan untuk mencari hubungan antara berbagai item. Sebagai contohnya,

dari sebuah himpunan data transaksi mungkin akan ditemukan kejadian berikut, dimana

seseorang yang membeli susu dalam transaksi yang sama akan membeli gula, atau seseorang

yang membeli sikat gigi dalam yang transaksi yang sama juga akan membeli odol.$etode asosiasi dikenal sebagai salah satu metode data mining yang menjadi dasar dari

berbagai metode data mining lainnya. Salah satu tahap dari analisis asosiasi yang disebut

analisis pola frekuensi tinggi frequent pattern mining " menarik perhatian banyak peneliti

untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat

diketahui dengan dua parameter, support nilai penunjang" yaitu prosentase kombinasi item

~ 1 ~


2/29

tersebut. dalam database dan confidence nilai kepastian" yaitu kuatnya hubungan antar item

dalam aturan assosiatif. #nalisis asosiasi didefinisikan suatu proses untuk menemukan semua

aturan assosiatif yang memenuhi syarat minimum untuk support minimum support " dan

syarat minimum untuk confidence minimum confidence" Pramudiono, %&&'".

#da beberapa algoritma yang sudah dikembangkan mengenai aturan asosiasi, $etode ini

terbagi atas beberapa algoritma yaitu algoritma #priori dan algoritma (P-)ro*th. #priori

merupakan algoritma klasik yang sering dipakai. +de dasar dari algoritma ini adalah dengan

mengembangkan frequent itemset , yaitu dengan cara menggunakan satu item dan kemudian

secara rekursif mengembangkan frequent itemset tersebut dengan dua item, tiga item dan

seterusnya hingga frequent itemset dengan semua ukuran. ntuk mengembangkan frequent

set dengan dua item, dapat menggunakan frequent set item. #lasannya adalah bila set satu

item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut.

(P-)ro*th adalah salah satu alternatif algoritma yang dapat digunakan untuk

menentukan himpunan data yang paling sering muncul freuent itemset" dalam sebuah

kumpulan data. (P-gro*th menggunakan pendekatan yang berbeda dari paradigma yang

selama ini sering digunakan, yaitu paradigma apriori.

a.2. Rumusan Masalah

a" #pa yang dimaksud dengan data,informasi dan data mining b" /agaimana konsep dari asosiasi

c" /agaimana proses #sosiasion rule

d" #pa saja definisi umum yang biasa digunakan dalam asosiasion rule e" /agaimana proses dari algoritma apriori dan algoritma (P-)ro*th

a.3. Tujuan

a" $ampu memahami apa yang dimaksud dengan data dan data mining b" $emahami konsep dari asosiasi

c" $emahami proses asosiasi

d" $emahami definisi umum yang biasa digunakan dalam asosiasion rule

e" $emahami proses dari algoritma apriori dan algoritma (P-)ro*th

BAB II

PEMBAHAAN

2.1. Pengert!an "ata "an "ata m!n!ng

~ 2 ~


3/29

Data merupakan fakta yang dikumpulkan, disimpan, dan diproses oleh sebuah sistem

informasi. Sedangkan informasi merupakan suatu hasil dari pemrosesan data menjadi suatu

yang bermakna bagi yang menerimanya, informasi sifatnya memberi tahu.

Data mining adalah proses untuk menemukan interesting kno*ledge dari sejumlah data

besar yang disimpan dalam database, data *arehouse, atau media penyimpanan yang

lainnya.0 Han, !amber, %&&1". Data mining diterapkan dengan paradigma untuk melihat

informasi yang tersembunyi.Data mining muncul berdasarkan fakta bah*a pertumbuhan data yang sangat pesat, tetapi

minim pengetahuan apa yang ada di dalam data tersebut. #lasan memilih data mining

dibandingkan alanisis data secara tradisional adalah2

1. Data mining mampu menangani jumlah data kecil sampai data yang berukuran sangat besar.

%. Data mining mampu menangani data yang mempunyai banyak dimensi, yaitu puluhan

sampai ribuan dimensi.3. Data mining mampu menangani data dengan komleksitas yang tinggi, misalnya data stream,

data spasial, teks, *eb, dan lain-lain.

Dengan menggunakan data mining,para pelaku bisnis dapat memanfaatkan data yang ada

untuk memecahkan masalah bisnis mereka yang umumnya dihadapi adalah 2 /agaimana menyajikan ad4ertensi kepada target yang tepat sasaran

$enyajikan halaman *eb yang khusus setiap pelanggan

$enampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu

$engklasifikasi artikel-artikel secara otomatis

$engelompokkan pengunjung *eb yang memiliki kesamaan karasteristik tertentu $engestimasi data yang hilang

$emprediksi kelakuan di masa yang akan datang

Penggalian data merupakan salah satu cara yang cukup efektif untuk mengetahui adanya

serangkaian pola informasi dari sejumlah besar data yang ada. Pola informasi yang didapat

akan menjadi sangat berarti apabila bersifat implisit, belum diketahui sebelumnya, dan

bermanfaat.

Pengel#m$#kan Data Mining

5erdapat tiga metode utama dalam data mining yaitu 6782

a. Supervised Learning Pembelajaran dengan )uru"

~ 3 ~


4/29


5/29

memuat item susu. Sedangkan >&? dari seluruh transaksi yang ada di database memuat

ketiga item itu. BDapat juga diartikan2 BSeorang konsumen yang membeli roti dan mentega

punya kemungkinan @&? untuk juga membeli susu. #turan ini cukup signifikan karena

me*akili >&? dari catatan transaksi selama ini.B

)ambar 1 2 mar$et bas$et analysis

#nalisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi

yang memenuhi syarat minimum untuk support %minimum support& dan syarat minimum

untuk confidence %minimum confidence&.

%.%.1. Market Basket Anal&s!s

'ar$et (as$et Analysis adalah suatu cara yang digunakan untuk

menganalisis data penjualan dari suatu perusahaan. Proses ini menganalisis

buying #abits konsumen dengan menemukan asosiasi antar item)item yang

berbeda yang diletakkan konsumen dalam s#opping bas$et )regorius S /udhi,

%&&'". Hasil yang telah didapatkan ini nantinya dapat dimanfaatkan oleh

perusahaan retail seperti toko atau s*alayan untuk mengembangkan strategi

pemasaran dengan melihat item)item mana saja yang sering dibeli secara

bersamaan oleh konsumen.

ntuk beberapa kasus, pola dari item)item yang dibeli secara bersamaan

oleh konsumen mudah ditebak, misalnya susu dibeli secara bersamaan dengan

roti. Camun bisa saja terdapat suatu pola pembelian item yang tidak terpikirkan

~ 5 ~


6/29

sebelumnya, misalnya pembelian minyak goreng dengan deterjen. Pola ini tidak

pernah terpikirkan sebelumnya karena minyak goreng dan deterjen tidak ada

hubungan sama sekali, baik sebagai barang pelengkap maupun barang pengganti.

Hal ini mungkin tidak terpikirkan sebelumnya sehingga tidak dapat diantisipasi

jika terjadi sesuatu, seperti kekurangan stok deterjen misalnya. +nilah salah satu

manfaat yang dapat diperoleh dari mar$et bas$et analysis. Dengan melakukan

proses ini secara otomatis seorang manajer tidak perlu mengalami kesulitan untuk

menemukan pola item apa saja yang mungkin dibeli secara bersamaan.

%.%.%. Ass#'!at!#n rule Association Rule 'ining meliputi dua tahap lmer, Da4id, %&&%"2

*. $encari kombinasi yang paling sering terjadi dari suatu itemset .

+. $endefinisikan ondition dan Result untuk conditional association rule".

Dalam menentukan suatu association rule, terdapat suatu interestingness

measure ukuran kepercayaan" yang didapatkan dari hasil pengolahan data dengan

perhitungan tertentu. mumnya ada dua ukuran, yaitu1. Support , yaitu suatu ukuran yang menunjukkan seberapa besar tingkat

dominasi suatu itemset dari keseluruhan transaksi. kuran ini menentukan

apakah suatu itemset layak untuk dicari confidence-nya misalnya, dari

keseluruhan transaksi yang ada, seberapa besar tingkat dominasi yang

menunjukkan bah*a item # dan / dibeli bersamaan".%. onfidence, yaitu suatu ukuran yang menunjukkan hubungan antar dua item

secara conditional misal, seberapa sering item / dibeli jika orang membeli

item #".

!edua ukuran ini nantinya berguna dalam menentukan interesting

association rules, yaitu untuk dibandingkan dengan batasan t#res#old " yang

ditentukan oleh user. /atasan tersebut umumnya terdiri dari minimum support

dan minimum confidence. dimana hal tersebut ditempuh dengan cara sebagai

berikut 2

*. $encari semua frequent itemset yaitu itemset dengan nilai support = minimum

support yang merupakan ambang batas yang diberikan oleh user . Dimana

itemset itu merupakan himpunan item yaitu kombinasi produk yang dibeli.+. $encari aturan asosiasi yang confidence dari frequent itemset yang didapat.

~ 6 ~


7/29

-. Sedangkan tahap selanjutnya adalah mencari rule)rule yang sesuai dengan

target user yang didapat dari proses association rule mining sebelumnya.

Rule)rule yang didapat mendeskripsikan kombinasi itemset yang dijadikan

pertimbangan di dalam membuat kesimpulan.

2.3. Pr#ses As#s!as!#n Rule

#pabila dilihat dari $etodologi dasar analisis asosiasi, maka cara kerja dari analisis ini

terbagi menjadi dua tahap 2

a" #nalisa pola frekuensi tinggi

5ahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support

dalam database. Cilai support sebuah item diperoleh dengan rumus berikut2

sedangkan nilai support dari % item diperoleh dari rumus berikut2

b" Pembentukan aturan assosiati

Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang

memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan

assosiatif # ke / Cilai confidence dari aturan # ke / diperoleh dari rumus berikut2

2.(. De)!n!s! Umum Dalam As#s!#as!#n rule

/eberapa istilah yang digunakan dalam #sosioasion rule antara lain2a. Support dukungan"2 probabilitas pelanggan membeli beberapa produk secara

bersamaan dari seluruh transaksi. Support untuk aturan E=


8/29

c. 'inimum support 2 parameter yang digunakan sebagai batasan frekuensi kejadian atau

support count yang harus dipenuhi suatu kelompok data untuk dapat dijadikan aturan.d. 'inimum confidence2 parameter yang mendefinisikan minimum le4el dari confidence

yang harus dipenuhi oleh aturan yang berkualitas.

e. +temset2 himpunan dari item-item yang muncul bersama samaf. Support count 2 frekuensi kejadian untuk sebuah kelompok produk atau itemset dari

seluruh transaksi.

g. !andidat itemset 2 itemset -itemset yang akan dihitung support count -nya.h. Large itemset 2 itemset yang sering terjadi, atau itemset -itemset yang sudah mele*ati

batas minimum support yang telah diberikan.

Sedangkan notasi-notasi yang digunakan dalam algoritma apriori antara lain2

a. 9k adalah kandidat $ -itemset, dimana $ menunjukkan jumlah pasangan item.

b. Fk adalah large k-itemset .c. D adalah basis data transaksi penjualan dimana GDG adalah banyaknya transaksi di tabel

basis data.

2.*. Alg#r!tma A$r!#r!

#lgoritma #priori adalah salah satu algoritma yang melakukan pencarian frequent

itemset dengan menggunakan teknik association rule r*in, %&&7". #lgoritma #priori

menggunakan pengetahuan frekuensi atribut yang telah diketahui sebelumnya untuk

memproses informasi selanjutnya. Pada algoritma #priori menentukan kandidat yang

mungkin muncul dengan cara memperhatikan minimum support dan minimum confidence.

Support adalah nilai pengunjung atau persentase kombinasi sebuah item dalam database.

Iumus support adalah sebagai berikut 2

Support #" = jumlah transaksi mengandung # 5otal transaksi" K 1&&? L. 1"

Sedangkan confidence adalah nilai kepastian yaitu kuatnya hubungan antar item dalam

sebuah Apriori. onfidence dapat dicari setelah pola frekuensi munculnya sebuah item

ditemukan. Iumus untuk menghitung confidence adalah sebagai berikut 2

9ontoh misalnya ditemukan aturan #/ maka2

onfidence P/G#" =Total transaksimengandung A danB

Transaksimengandung A

~ 8 ~


9/29

Proses utama yang dilakukan dalam algoritma #priori untuk mendapat frequent itemset

yaitu 2

1. 0oin penggabungan"

Proses ini dilakukan dengan cara pengkombinasian item dengan item yang lainnya hingga

tidak dapat terbentuk kombinasi lagi.%. 1rune pemangkasan"

Proses pemangkasan yaitu hasil dari item yang telah dikombinasikan kemudian dipangkas

dengan menggunakan minimum support yang telah ditentukan oleh user.

Sedangkan cara kerja dari #lgoritma #priori sendiri terbagi dari beberapa tahap yang

disebut iterasi. 5ahapan-tahapan tersebut antara lain adalah 2

1. Pembentukan kandidat itemset, kandidat k-itemset dibentuk dari kombinasi k-1"-itemset

yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma #priori adalah adanya pemangkasan kandidat k-itemset yang subsetnya yang berisi k-1 item tidak termasuk

dalam pola frekuensi tinggi dengan panjang k-1.

%. Perhitungan support dari tiap kandidat kitemset. Support dari tiap kandidat k-itemset

didapat dengan menscan database untuk menghitung jumlah transaksi yang memuat

semua item di dalam kandidat k-itemset tersebut. +ni juga merupakan ciri dari algoritma

apriori dimana diperlukan perhitungan dengan scan seluruh database sebanyak k-itemset

terpanjang.

3. 5etapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset

ditetapkan dari kandidat k-itemset yang supportnya lebih besar dari minimum support.>. /ila tidak didapat pola frekuensi tinggi maka seluruh proses dihentikan. /ila tidak, maka

k tambah satu dan kembali ke bagian 1.

CONTOH KASUS ALGORITMA APRIORI

5#/F 1. 9OC5OH 5I#CS#!S+ PCJ#F#C S#AI

~ 9 ~


10/29

Definisi-definisi yang terdapat pada #ssociation Iule

1. + adalah himpunan yang tengah dibicarakan.

9ontoh2:#sparagus, /eans, L, 5omatoes;

%. D adalah Himpunan seluruh transaksi yang tengah dibicarakan9ontoh2

:5ransaksi 1, transaksi %, L, transaksi 1>;

3. Proper Subset adalah Himpunan /agian murni9ontoh2

#da suatu himpunan #=:a,b,c,;

Himpunan /agian dari # adalahHimpunan !osong = :;

Himpunan 1 nsur = :a;,:b;,:c;

Himpunan % nsur = :a,b;,:a,c;,:b,c;Himpunan 3 nsur = :a,b,c,;Proper subset nya adalah Himpunan 1 nsur dan Himpunan % nsur

>. +tem set adalah Himpunan item atau item-item di +

9ontoh2#da suatu himpunan #=:a,b,c,;

+tem set nya adalah

:a;M:b;2:c;M:a,b;M:a,c;M:b,c;!- item set adalah +tem set yang terdiri dari ! buah item yang ada pada +. +ntinya ! itu

adalah jumlah unsur yang terdapat pada suatu Himpunan

9ontoh2 3-item set adalah yang bersifat 3 unsur@. +tem set (rekuensi adalah Jumlah transaksi di + yang mengandung jumlah item set tertentu.

+ntinya jumlah transaksi yang membeli suatu item set.

9ontoh2!ita gunakan tabel transaksi penjualan sayur di atas

• frekuensi +tem set yang sekaligus membeli /eans dan /rocolli adalah 3

~ 10 ~


11/29

• frekuensi item set yang membeli sekaligus membeli /eans, Suash dan 5omatoes adalah

%N. (rekuen +tem Set adalah item set yang muncul sekurang-kurangnya sekian0 kali di D. !ata

sekian0 biasanya di simbolkan dengan . merupakan batas minimum dalam suatu

transaksi9ontoh2

Pertama kita tentukan = 3, karena jika tidak di tentukan maka maka frekuen item set tidak

dapat di hitung. Jika =3 untuk :#sparagus, /eans; apakah frekuen +tem set Jika kita

hitung maka jumlah transaksi yang membeli asparagus sekaligus membeli beans adalah @.

!arena @


12/29


13/29

1. Pisahkan masing-masing item yang dibeli

%. !emudian /uat 5abel seperti di ba*ah ini dan hitung jumlahnya2

3. 5entukan $isalkan kita tentukan = 3, maka kita dapat menentukan frekuen itemset. Dari tabel di

atas diketahui total untuk transaksi k = 1, semuanya lebih besardari . $aka2 (1= ::#;,

:/;, :9;, :D;, :;;ntuk k = % % unsur", diperlukan tabel untuk tiap-tiap pasang item. Himpunan yang

mungkin terbentuk adalah2 :#,/;, :#,9;, :#,D;, :#,;, :/,9;, :/,D;, :/,;, :9,D;,

:9,;, :D,;.

5abel-tabel untuk calon % item set

~ 13 ~


14/29

Dari tabel-tabel % unsur di atas, P artinya item-item yang dijual bersamaan, sedangkan S

berarti tidak ada item yang dijual bersamaan atau tidak terjadi transaksi. Q

melambangkan jumlah (rekuensi item set.

Jumlah frekuensi item set harus lebih besar atau sama dengan jumlah (rekuensi item set

Q


15/29

>. 5entukan ss-s" sebagai antecedent dan s sebagai conseuent dari (k yang telah didapat Pada

(% didapat himpunan (%= ::9,D;,:9,;,:D,;; $aka dapat disusun2

• ntuk :9,D;2

Jika ss-s" = 9, Jika s = D, $aka R+f buy 9 then buy D

Jika ss-s" = D, Jika s = 9, $aka R+f buy D then buy 9

• ntuk :9,;2

Jika ss-s" = 9, Jika s = , $aka R+f buy 9 then buy

Jika ss-s" = , Jika s = 9, $aka R+f buy then buy 9

• ntuk :D,;2

Jika ss-s" = D, Jika s = , $aka R+f buy D then buy Jika ss-s" = , Jika s = D, $aka R+f buy then buy D

@. Dari langkah di atas, kita mendapatkan N rule yang dapat digunakan, yaitu2

• +f buy 9 then buy D

• +f buy D then buy 9

• +f buy 9 then buy

• +f buy then buy 9

• +f buy D then buy

• +f buy then buy D

N. Hitung support dan confidence

Sehingga didapat table sebagai berikut2

~ 15 ~


16/29


17/29


18/29

1. (P-5ree dibentuk oleh sebuah akar yang diberi label null , sekumpulan upapohon yang

beranggotakan item-item tertentu, dan sebuah tabel frequent #eader.%. Setiap simpul dalam (P-tree mengandung tiga informasi penting, yaitu label item

menginformasikan jenis item yang direpresentasikan simpul tersebut, support count ,

merepresentasikan jumlah lintasan transaksi yang melalui simpul tesebut, dan pointer

penghubung yang menghubungkan simpul-simpul dengan label item sama antar-lintasan,

dintandai dengan garis panah putus-putus.

+#nt#h

$isalkan diberikan tabel data transaksi sebagai berikut, dengan minimum support count 45%

Co 5ransaksi1 a,b

% b,c,d,g,h

3 a,c,d,e,f

> a,d,e

@ a,b,T,c

N a,b,c,d

' a,r

a,b,c

7 a,b,d

1& b,c,e

Ta:el 1. 5abel data transaksi mentah

(rekuensi kemunculan tiap item dapat dilihat pada tabel berikut 2

+tem (rekuensi

a

b '

c N

d @

e 3

f 1r 1

T 1

g 1

h 1

Ta:el 2. (rekuensi kemunculan tiap karakter

~ 18 ~


19/29

Setelah dilakukan pemindaian pertama didapat item yang memiliki frekuensi di atas

support count 45% adalah a,b,c,d, dan e. !elima item inilah yang akan berpengaruh dan akan

dimasukkan ke dalam (P-tree, selebihnya r,T,g, dan h" dapat dibuang karena tidak berpengaruh

signifikan.

5abel berikut mendata kemunculan item yang frequent dalam setiap transaksi, diurut

berdasarkan yang frekuensinya paling tinggi.

5+D 5ransaksi

1 :a,b;

% :b,c,d;

3 :a,c,d,e;

> :a,d,e;

@ :a,b,c;

N :a,b,c,d;

' :a; :a,b,c;

7 :a,b,d;

1& :b,c,e;

Ta:el 3. 5abel data transaksi

)ambar di ba*ah ini memberikan ilustrasi mengenai pembentukan (P-tree setelah

pembacaan 5+D 1.

8am:ar 1 Hasil pembentukan (P-tree setelah pembacaan 5+D 1

~ 19 ~


20/29

8am:ar 2 Hasil Pembentukan (P U5ree setelah pembacaan 5+D %

8am:ar 3 Hasil Pembentukan (P-5ree setelah pembacaan 5+D 3

8am:ar ( Hasil Pembentukan (P-5ree setelah pembacaan 5+D 1&

Diberikan 1& data transaksi dengan @ jenis item seperti pada tabel di atas. )ambar 1 U >

menunjukkan proses terbentuknya (P U5ree setiap 5+D dibaca. Setiap simpul pada (P-5ree

mengandung nama sebuah item dan counter support yang berfungsi untuk menghitung frekuensi

kemunculan item tersebut dalam tiap lintasan transaksi.

!1)tree yang merepresentasi$an data transa$si pada tabel +.* dibentu$ dengan cara

sebagai beri$ut6

1. !umpulan data dipindai pertama kali untuk menentukan support count dari setiap item. +tem

yang tidak frequent dibuang, sedangkan frequent item dimasukkan dan disusun dengan urutan

menurun, seperti yang terlihat pada tabel %.1.

~ 20 ~


21/29

%. Pemindaian kedua, yaitu pembacaan 5+D pertama :a,b; akan membuat simpul a dan b,

sehingga terbentuk lintasan transaksi CullRaRb. Support count dari setiap simpul bernilai

a*al 1

3. Setelah pembacaan transaksi kedua :b,c,d;, terbentuk lintasan kedua yaitu CullRbRcRd.

Support count masing-masing count juga bernilai a*al 1. Valaupun b ada pada transaksi

pertama, namun karena prefi7 transaksinya tidak sama, maka transaksi kedua ini tidak bisa

dimampatkan dalam satu lintasan.

>. 5ransaksi keempat memiliki prefi7 transaksi yang sama dengan transaksi pertama, yaitu a,

maka lintasan transaksi ketiga dapat ditimpakan di a, sambil menambah support count dari a,

dan selanjutnya membuat lintasan baru sesuai dengan transaksi ketiga.lihat gambar %.3"

@. Proses ini dilanjutkan sampai (P-tree berhasil dibangun berdasarkan tabel data transaksi

yang diberikan.

: Penera$an Alg#r!tma P;8r#9th

Setelah tahap pembangunan (P-tree dari sekumpulan data transaksi, akan diterapkan

algoritma (P-gro*th untuk mencari frequent itemset yang signifikan. #lgoritma (P-gro*th

dibagi menjadi tiga langkah utama, yaitu 2

1. 5ahap Pembangkitan onditional 1attern (ase

onditional 1attern (ase merupakan subdatabase yang berisi prefi7 pat# lintasan prefiK"

dan suffi7 pattern pola akhiran". Pembangkitan conditional pattern base didapatkan

melalui (P-tree yang telah dibangun sebelumnya.

%. 5ahap Pembangkitan onditional (P-tree

Pada tahap ini, support count dari setiap item pada setiap conditional pattern base

dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama

dengan minimum support count 4 akan dibangkitkan dengan conditional (P-tree.3. 5ahap Pencarian frequent itemset #pabila 9onditional (P-tree merupakan lintasan

tunggal single pat#&, maka didapatkan frequent itemset dengan melakukan kombinasi

item untuk setiap conditional (P-tree. Jika bukan lintasan tunggal, maka dilakukan

pembangkitan (P-gro*th secara rekursif.

!etiga tahap tersebut merupakan langkah yang akan dilakukan untuk mendapat frequent

itemset, yang dapat dilihat pada algoritma berikut 2

~ 21 ~


22/29

)ambar #lgoritma (P-)ro*th

#kan dicoba menerapkan algoritma (P-gro*th pada kasus contoh di atas.

Fangkah-langkah yang harus ditempuh akan dijelaskan pada bagian berikut ini.

. Proses pembentukan dapat dilihat pada gambar berikut 2

8am:ar Fintasan yang mengandung simpul e

~ 22 ~


23/29

8am:ar Fintasan mengandung simpul d

8am:ar Fintasan mengandung simpul c

8am:ar Fintasan mengandung simpul b

8am:ar Fintasan mengandung simpul a

~ 23 ~


24/29

#lgoritma (P-gro*th menemukan frequent itemset yang berakhiran suffi7 tertentu dengan

menggunakan metode divide and conquer untuk memecah problem menjadi subproblem yang

lebih kecil.

9ontohnya, jika kita ingin menemukan semua frequent itemset yang berakhiran e. Oleh

karena itu, kita harus mengecek apakah support count dari e memenuhi minimum support count

45%. !arena support count dari e adalah 3, dan 3W 4, maka e adalah item yang frequent.

Setelah mengetahui bah*a item e adalah item yang freuent, maka subproblem selanjutnya

adalah menemukan frequent itemset dengan akhiran de, ce, be, dan ae. Dengan menggabungkan

seluruh solusi dari subproblem yang ada, maka himpunan semua frequent itemset yang

berakhiran item e akan didapatkan.

ntuk lebih memperjelas, dapat dilihat contoh menemukan frequent itemset yang

berakhiran dengan item e di ba*ah ini

8am:ar #da lintasan yang tidak berakhir di e, yaitu CullRbRc

1. Fangkah pertama yang dilakukan adalah membangun sebuah upapohon (P-tree dengan

hanya menyertakan lintasan yang berakhir di e.

%. Support count dari item e dihitung dan dibandingkan dengan minimum support count 45-.

!arena memenuhi, maka :e; termasuk frequent itemset , karena support count5+.

3. !arena item e frequent, maka perlu dipecahkan subproblem untuk menemukan frequent

itemset yang berkahiran dengan de, ce, be, dan ae. Sebelum meme4ahkan subproblem ini,

~ 24 ~


25/29

maka upapohon (P-tree tersebut harus diubah terlebih dahulu menjadi conditional (P-tree.

onditional (P-tree mirip dengan (P-tree biasa, namun conditional !1)tree dimaksudkan

untuk mencari frequent itemset yang berakhiran item tertentu.

>. onditional (P-tree dapat dibentuk dengan cara 2

8am:ar Semua simpul e dibuang, Support count simpul di atasnya sudah diperbaharui

a. Setiap lintasan yang tidak mengandung e dibuang. Pada contoh, lintasan terkanan,

terdapat lintasan yang tidak mengandung e, yaitu nullRbRc. Fintasan ini dapat dibuang

dengan cara mengurangi support count menjadi 1, sehingga lintasan tersebut hanya

mengandung transaksi :b,c,e;, seperti pada gambar di atas.

b. Setelah semua lintasan berakhir di e, maka simpul e dapat dibuang, karena setiap nilai

support count pada simpul orang tuanya telah mencerminkan transaksi yang berakhir di

e. Subproblem selanjutnya yang harus dipecahkan adalah mencari lintasan frequent

itemset yang berakhir di de, ce, be, dan ae.

8am:ar onditional !1)tree untu$ e lintasan mengandung be dihapus, karena tidak

frequent ".

~ 25 ~


26/29

c. !arena nilai support count dari b adalah 1, yang berarti transaksi yang mengandung b

dan e hanya 1 transaksi, maka berdasarkan prinsip anti-monotone heuristic, simpul b dan

lintasan yang mengandung be dapat dibuang, karena jika item b tidak freuent, maka

setiap transaksi yang berakhiran be juga tidak frequent. 5erbentuk onditional !1)tree

untuk e, seperti pada gambar di atas.

@. (P-tree menggunakan onditional (P-tree untuk membangun pohon lintasan prefiK untuk

menemukan frequent itemset yang berakhir dengan pasangan item de,ce, dan ae.

N. ntuk Fintasan PrefiK de, yang dibentuk dari onditional !1)tree untuk item e dapat dilihat

pada gambar berikut

8am:ar Pohon PrefiK yang berakhir di de

'. Dengan menjumlahkan support count dari d, yang tidak lain adalah jumlah frequent itemset

yang berakhir di de, didapat bah*a :d,e; juga termasuk dalam frequent itemset.

. Selanjutnya #lgoritma (P-tree akan mengulangi langkah yang sama dengan langkah ketiga,

sehingga didapatkan conditional !1)tree untu$ de hanya berisi satu daun, yaitu a, dengan

support count %. Sehingga :a,d,e; termasuk dalam frequent itemset.

7. Subproblem berikutnya yaitu dengan menemukan frequent itemset yang berakhiran dengan

ce. Didapat :c,e; juga merupakan frequent itemset. /egitupula dengan :a,e;.

Setelah memeriksa frequent itemset untuk beberapa akhiran suffi7", maka didapat hasil yangdirangkum dalam tabel berikut2

Suffi7 !requent 3temset

:e;,:d,e;,:a,d,e;,:c,e;,:a,e;

D :d;,:c,d;,:b,c,d;,:a,c,d;,:b,d;,:a,b,d;,:a,d;

9 :c;,:b,c;,:a,b,c;,:a,c;

/ :b;,:a,b;

~ 26 ~


27/29

# :a;

Dengan metode divide and conquer ini, maka pada setiap langkah rekursif, algoritma (P-gro*th

akan membangun sebuah conditional !1)tree baru yang telah diperbaharui nilai support count,

dan membuang lintasan yang mengandung item-item yang tidak frequent lagi.

~ 27 ~


28/29

BAB III

%EIMPULAN

3.1. %es!m$ulan

/eberapa kesimpulan yang dapat ditarik dari penulisan makalah ini adalah Penggunaan

metode analisis keranjang pasar sangat membantu dalam mengidentifikasi item-item produk

yang mungkin dibeli bersamaan dengan produk lain. algoritma Apriori membutuhkan *aktu

komputansi yang lama untuk mendapatkan frequent itemsets. !arena berulang kali

melakukan pemindaian data. Selain itu algoritma ini membutuhkan alokasi memori yang

besar untuk melakukan pencarian itemsets. !1)2ree yang terbentuk dapat memampatkan data transaksi yang memiliki memilki item

yang sama, sehingga penggunaan memori komputer lebih sedikit, dan proses pencarian

frequent itemset menjadi lebih cepat. !1)"rowt# hanya membutuhkan dua kali scanning

database dalam mencari frequent itemsets sehingga *aktu yang dibutuhkan pun menjadi

relatif singkat dan efisien.

3.2. aran

Pembuatan makalah ini sangat jauh dari kesempurnaan, karena keterbatasan sumber yang

kami peroleh. Sehingga isi dari makalah ini masih bersifat umum, oleh karena itu penulis

merasa sangat mengharapkan saran dari para pembaca yang bersifat membangun agar kiranya

kami mampu mengisi kekurangan itu dengan saran dari para pembaca. Dan semoga makalah

yang penulis buat ini dapat bermanfaat bagi para pembaca.

~ 28 ~


29/29

DATAR PUTA%A

r*in. %&&7. Analisis 'ar$et (as$et Dengan Algoritma Apriori dan !1)"rowt#. niversitas

Sriwi8aya.0urnal.

Han, Jia*eiM !amber, $icheline. %&&N . Data 'ining 6oncepts and 2ec#niques. San

(rancisco2 $organ !aufmann.

Johan. %&1&. Analisa Keran8ang 1asar dengan Algoritma Apriori pada Data 2ransa$si 'ini

'ar$et Lima (intang . Stikom Pelita +ndonesia 2 Pekanbaru.

Oli4ia, $erry. %&13. Association Rule %Algoritma A 1riori&. ni4ersitas )unadarma.

Sari, +ndah $ulia. Dkk. %&13. Algoritma !1)"rowt#. ni4ersitas Hasanuddin 2 $akassar.

Setia*ati, De4i Dinda. 1enggunaan 'etode Apriori ntu$ analisis Keran8ang 1asar pada

Data 2ransa$si 1en8ualan 'inimar$et 'engguna$an 0ava 9 'yS:L. ni4ersitas

)unadarma 2 Depok.

bab 1 data mining

Documents