bab 1 data mining

Upload: ekasafitri02

Post on 06-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/17/2019 Bab 1 Data Mining

    1/29

    BAB 1

    PENDAHULUAN

    1.1. Latar Belakang

    Saat ini, perkembangan teknologi telah memberikan pengaruh yang sangat besar di dalam

    kehidupan manusia. Salah satu pengaruh tersebut di bidang informasi yaitu dalam aplikasi

    database. Pada aplikasi database, informasi memegang peranan yang sangat penting dan

    dibutuhkan dalam berbagai aspek kehidupan, baik dalam dunia pendidikan, bisnis,

     perbankan, dan lain-lain. Dengan bermanfaatnya informasi tersebut, banyak perusahaan

     berusaha untuk mengumpulkan informasi sebanyak banyaknya untuk mendapatkan

    keuntungan yang maksimal.

    Sebagai contoh dalam dunia bisnis seperti pada minimarket. Pada minimarket yang

    setiap harinya terjadi transaksi penjualan. Hal ini memungkinkan data transaksi yang

    diperoleh akan menjadi banyak dan menumpuk. Jika data dibiarkan saja, maka data tersebut

    hanya akan menjadi sampah yang tidak berarti lagi.Oleh karena itu, diperlukan sebuah aplikasi yang mampu memilah dan memilih data,

    sehingga bisa diperoleh informasi yang bermanfaat bagi penggunanya. Pemanfaatan

    informasi dan pengetahuan yang terkandung di dalam banyaknya data tersebut, pada saat ini

    disebut dengan data mining . Data mining  dimaksudkan untuk memberikan solusi nyata bagi

     para pengambil keputusan, untuk mengembangkan bisnis mereka. Data mining  adalah suatu

    istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database atausering disebut Knowledge Discovery in Database !DD".

    #turan asosiasi atau sering disebut  Association Rule, merupakan salah satu metode yang

    digunakan untuk menemukan hubungan diantara data atau bagaimana suatu kelompok data

    mempengaruhi suatu keberadaan data lain. #turan asosiasi merupakan salah satu metode

    yang sering digunakan untuk mencari hubungan antara berbagai item. Sebagai contohnya,

    dari sebuah himpunan data transaksi mungkin akan ditemukan kejadian berikut, dimana

    seseorang yang membeli susu dalam transaksi yang sama akan membeli gula, atau seseorang

    yang membeli sikat gigi dalam yang transaksi yang sama juga akan membeli odol.$etode asosiasi dikenal sebagai salah satu metode data mining yang menjadi dasar dari

     berbagai metode data mining lainnya. Salah satu tahap dari analisis asosiasi yang disebut

    analisis pola frekuensi tinggi  frequent pattern  mining " menarik perhatian banyak peneliti

    untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat

    diketahui dengan dua parameter,  support nilai penunjang" yaitu prosentase kombinasi item

    ~ 1 ~

  • 8/17/2019 Bab 1 Data Mining

    2/29

    tersebut. dalam database dan confidence nilai kepastian" yaitu kuatnya hubungan antar item

    dalam aturan assosiatif. #nalisis asosiasi didefinisikan suatu proses untuk menemukan semua

    aturan assosiatif yang memenuhi syarat minimum untuk support minimum support " dan

    syarat minimum untuk confidence minimum confidence" Pramudiono, %&&'".

    #da beberapa algoritma yang sudah dikembangkan mengenai aturan asosiasi, $etode ini

    terbagi atas beberapa algoritma yaitu algoritma #priori dan algoritma (P-)ro*th. #priori

    merupakan algoritma klasik yang sering dipakai. +de dasar dari algoritma ini adalah dengan

    mengembangkan  frequent itemset , yaitu dengan cara menggunakan satu item dan kemudian

    secara rekursif mengembangkan  frequent itemset tersebut  dengan dua item, tiga item dan

    seterusnya hingga frequent itemset dengan semua ukuran. ntuk mengembangkan  frequent 

     set dengan dua item, dapat menggunakan  frequent set item. #lasannya adalah bila set satu

    item tidak melebihi  support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut.

    (P-)ro*th adalah salah satu alternatif algoritma yang dapat digunakan untuk 

    menentukan himpunan data yang paling sering muncul freuent itemset" dalam sebuah

    kumpulan data. (P-gro*th menggunakan pendekatan yang berbeda dari paradigma yang

    selama ini sering digunakan, yaitu paradigma apriori.

    a.2. Rumusan Masalah

    a" #pa yang dimaksud dengan data,informasi dan data mining  b" /agaimana konsep dari asosiasi

    c" /agaimana proses #sosiasion rule

    d" #pa saja definisi umum yang biasa digunakan dalam asosiasion rule e" /agaimana proses dari algoritma apriori dan algoritma (P-)ro*th

    a.3. Tujuan

    a" $ampu memahami apa yang dimaksud dengan data dan data mining b" $emahami konsep dari asosiasi

    c" $emahami proses asosiasi

    d" $emahami definisi umum yang biasa digunakan dalam asosiasion rule

    e" $emahami proses dari algoritma apriori dan algoritma (P-)ro*th

    BAB II

    PEMBAHAAN

    2.1. Pengert!an "ata "an "ata m!n!ng

    ~ 2 ~

  • 8/17/2019 Bab 1 Data Mining

    3/29

    Data merupakan fakta yang dikumpulkan, disimpan, dan diproses oleh sebuah sistem

    informasi. Sedangkan informasi merupakan suatu hasil dari pemrosesan data menjadi suatu

    yang bermakna bagi yang menerimanya, informasi sifatnya memberi tahu.

    Data mining adalah proses untuk menemukan interesting kno*ledge dari sejumlah data

     besar yang disimpan dalam database, data *arehouse, atau media penyimpanan yang

    lainnya.0 Han, !amber, %&&1". Data mining diterapkan dengan paradigma untuk melihat

    informasi yang tersembunyi.Data mining muncul berdasarkan fakta bah*a pertumbuhan data yang sangat pesat, tetapi

    minim pengetahuan apa yang ada di dalam data tersebut. #lasan memilih data mining

    dibandingkan alanisis data secara tradisional adalah2

    1. Data mining mampu menangani jumlah data kecil sampai data yang berukuran sangat besar.

    %. Data mining mampu menangani data yang mempunyai banyak dimensi, yaitu puluhan

    sampai ribuan dimensi.3. Data mining mampu menangani data dengan komleksitas yang tinggi, misalnya data stream,

    data spasial, teks, *eb, dan lain-lain.

    Dengan menggunakan data mining,para pelaku bisnis dapat memanfaatkan data yang ada

    untuk memecahkan masalah bisnis mereka yang umumnya dihadapi adalah 2 /agaimana menyajikan ad4ertensi kepada target yang tepat sasaran

    $enyajikan halaman *eb yang khusus setiap pelanggan

    $enampilkan informasi produk lain yang biasa dibeli bersamaan dengan produk tertentu

    $engklasifikasi artikel-artikel secara otomatis

    $engelompokkan pengunjung *eb yang memiliki kesamaan karasteristik tertentu $engestimasi data yang hilang

    $emprediksi kelakuan di masa yang akan datang

    Penggalian data merupakan salah satu cara yang cukup efektif untuk mengetahui adanya

    serangkaian pola informasi dari sejumlah besar data yang ada. Pola informasi yang didapat

    akan menjadi sangat berarti apabila bersifat implisit, belum diketahui sebelumnya, dan

     bermanfaat.

    Pengel#m$#kan Data Mining  

    5erdapat tiga metode utama dalam data mining  yaitu 6782

    a. Supervised Learning Pembelajaran dengan )uru"

    ~ 3 ~

  • 8/17/2019 Bab 1 Data Mining

    4/29

  • 8/17/2019 Bab 1 Data Mining

    5/29

    memuat item susu. Sedangkan >&? dari seluruh transaksi yang ada di database memuat

    ketiga item itu. BDapat juga diartikan2 BSeorang konsumen yang membeli roti dan mentega

     punya kemungkinan @&? untuk juga membeli susu. #turan ini cukup signifikan karena

    me*akili >&? dari catatan transaksi selama ini.B

    )ambar 1 2 mar$et bas$et analysis

    #nalisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi

    yang memenuhi syarat minimum untuk  support %minimum support& dan syarat minimum

    untuk confidence %minimum confidence&.

    %.%.1. Market Basket Anal&s!s

     'ar$et (as$et Analysis  adalah suatu cara yang digunakan untuk 

    menganalisis data penjualan dari suatu perusahaan. Proses ini menganalisis

    buying   #abits  konsumen dengan menemukan asosiasi antar item)item  yang

     berbeda yang diletakkan konsumen dalam  s#opping bas$et  )regorius S /udhi,

    %&&'". Hasil yang telah didapatkan ini nantinya dapat dimanfaatkan oleh

     perusahaan retail seperti toko atau s*alayan untuk mengembangkan strategi

     pemasaran dengan melihat item)item  mana saja yang sering dibeli secara

     bersamaan oleh konsumen.

    ntuk beberapa kasus, pola dari item)item yang dibeli secara bersamaan

    oleh konsumen mudah ditebak, misalnya susu dibeli secara bersamaan dengan

    roti. Camun bisa saja terdapat suatu pola pembelian item yang tidak terpikirkan

    ~ 5 ~

  • 8/17/2019 Bab 1 Data Mining

    6/29

    sebelumnya, misalnya pembelian minyak goreng dengan deterjen. Pola ini tidak 

     pernah terpikirkan sebelumnya karena minyak goreng dan deterjen tidak ada

    hubungan sama sekali, baik sebagai barang pelengkap maupun barang pengganti.

    Hal ini mungkin tidak terpikirkan sebelumnya sehingga tidak dapat diantisipasi

     jika terjadi sesuatu, seperti kekurangan stok deterjen misalnya. +nilah salah satu

    manfaat yang dapat diperoleh dari mar$et bas$et analysis. Dengan melakukan

     proses ini secara otomatis seorang manajer tidak perlu mengalami kesulitan untuk 

    menemukan pola item apa saja yang mungkin dibeli secara bersamaan.

    %.%.%. Ass#'!at!#n rule Association Rule 'ining meliputi dua tahap lmer, Da4id, %&&%"2

    *. $encari kombinasi yang paling sering terjadi dari suatu itemset .

    +. $endefinisikan ondition dan Result  untuk conditional association rule".

    Dalam menentukan suatu association rule, terdapat suatu interestingness

    measure ukuran kepercayaan" yang didapatkan dari hasil pengolahan data dengan

     perhitungan tertentu. mumnya ada dua ukuran, yaitu1. Support , yaitu suatu ukuran yang menunjukkan seberapa besar tingkat

    dominasi suatu itemset  dari keseluruhan transaksi. kuran ini menentukan

    apakah suatu  itemset   layak untuk dicari confidence-nya misalnya, dari

    keseluruhan transaksi yang ada, seberapa besar tingkat dominasi yang

    menunjukkan bah*a item # dan / dibeli bersamaan".%. onfidence, yaitu suatu ukuran yang menunjukkan hubungan antar dua item

    secara conditional   misal, seberapa sering item / dibeli jika orang membeli

    item #".

    !edua ukuran ini nantinya berguna dalam menentukan interesting 

    association rules, yaitu untuk dibandingkan dengan batasan t#res#old " yang

    ditentukan oleh user. /atasan tersebut umumnya terdiri dari minimum support 

    dan minimum confidence. dimana hal tersebut ditempuh dengan cara sebagai

     berikut 2

    *. $encari semua frequent itemset yaitu itemset dengan nilai support = minimum

     support yang merupakan ambang batas yang diberikan oleh user . Dimana

    itemset itu merupakan himpunan item yaitu kombinasi produk yang dibeli.+.  $encari aturan asosiasi yang confidence dari frequent itemset  yang didapat.

    ~ 6 ~

  • 8/17/2019 Bab 1 Data Mining

    7/29

    -. Sedangkan tahap selanjutnya adalah mencari rule)rule yang sesuai dengan

    target user yang didapat dari proses association rule mining sebelumnya.

     Rule)rule yang didapat mendeskripsikan kombinasi itemset   yang dijadikan

     pertimbangan di dalam membuat kesimpulan.

    2.3. Pr#ses As#s!as!#n Rule

    #pabila dilihat dari $etodologi dasar analisis asosiasi, maka cara kerja dari analisis ini

    terbagi menjadi dua tahap 2

    a" #nalisa pola frekuensi tinggi

    5ahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support

    dalam database. Cilai support sebuah item diperoleh dengan rumus berikut2

    sedangkan nilai support dari % item diperoleh dari rumus berikut2

     b" Pembentukan aturan assosiati

    Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang

    memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan

    assosiatif # ke / Cilai confidence dari aturan # ke / diperoleh dari rumus berikut2

    2.(. De)!n!s! Umum Dalam As#s!#as!#n rule

    /eberapa istilah yang digunakan dalam #sosioasion rule antara lain2a. Support dukungan"2 probabilitas pelanggan membeli beberapa produk secara

     bersamaan dari seluruh transaksi. Support untuk aturan E=

  • 8/17/2019 Bab 1 Data Mining

    8/29

    c.  'inimum support 2 parameter yang digunakan sebagai batasan frekuensi kejadian atau

     support count yang harus dipenuhi suatu kelompok data untuk dapat dijadikan aturan.d.  'inimum confidence2 parameter yang mendefinisikan minimum le4el dari confidence

    yang harus dipenuhi oleh aturan yang berkualitas.

    e. +temset2 himpunan dari item-item yang muncul bersama samaf. Support count 2 frekuensi kejadian untuk sebuah kelompok produk atau itemset dari

    seluruh transaksi.

    g. !andidat itemset 2 itemset -itemset yang akan dihitung support count -nya.h.  Large itemset 2 itemset yang sering terjadi, atau itemset -itemset yang sudah mele*ati

     batas minimum support yang telah diberikan.

    Sedangkan notasi-notasi yang digunakan dalam algoritma apriori antara lain2

    a. 9k adalah kandidat $ -itemset, dimana $  menunjukkan jumlah pasangan item.

     b. Fk adalah large k-itemset .c. D adalah basis data transaksi penjualan dimana GDG adalah banyaknya transaksi di tabel

     basis data.

    2.*. Alg#r!tma A$r!#r!

    #lgoritma #priori adalah salah satu algoritma yang melakukan pencarian  frequent 

    itemset   dengan menggunakan teknik association rule  r*in, %&&7". #lgoritma #priori

    menggunakan pengetahuan frekuensi atribut yang telah diketahui sebelumnya untuk 

    memproses informasi selanjutnya. Pada algoritma  #priori menentukan kandidat yang

    mungkin muncul dengan cara memperhatikan minimum support  dan minimum confidence.

    Support  adalah nilai pengunjung atau persentase kombinasi sebuah item dalam database.

    Iumus support  adalah sebagai berikut 2

    Support #" = jumlah transaksi mengandung # 5otal transaksi" K 1&&? L. 1"

    Sedangkan confidence adalah nilai kepastian yaitu kuatnya hubungan antar item dalam

    sebuah  Apriori. onfidence  dapat dicari setelah pola frekuensi munculnya sebuah item

    ditemukan. Iumus untuk menghitung confidence adalah sebagai berikut 2

    9ontoh misalnya ditemukan aturan #/ maka2

    onfidence P/G#" =Total transaksimengandung A danB

    Transaksimengandung A

    ~ 8 ~

  • 8/17/2019 Bab 1 Data Mining

    9/29

    Proses utama yang dilakukan dalam algoritma #priori untuk mendapat  frequent itemset 

    yaitu 2

    1.  0oin penggabungan"

    Proses ini dilakukan dengan cara pengkombinasian item dengan item yang lainnya hingga

    tidak dapat terbentuk kombinasi lagi.%.  1rune pemangkasan"

    Proses pemangkasan yaitu hasil dari item yang telah dikombinasikan kemudian dipangkas

    dengan menggunakan minimum support  yang telah ditentukan oleh user.

    Sedangkan cara kerja dari #lgoritma #priori sendiri terbagi dari beberapa tahap yang

    disebut iterasi. 5ahapan-tahapan tersebut antara lain adalah 2

    1. Pembentukan kandidat itemset, kandidat k-itemset dibentuk dari kombinasi k-1"-itemset

    yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma #priori adalah adanya pemangkasan kandidat k-itemset yang subsetnya yang berisi k-1 item tidak termasuk 

    dalam pola frekuensi tinggi dengan panjang k-1.

    %. Perhitungan support dari tiap kandidat kitemset. Support dari tiap kandidat k-itemset

    didapat dengan menscan database untuk menghitung jumlah transaksi yang memuat

    semua item di dalam kandidat k-itemset tersebut. +ni juga merupakan ciri dari algoritma

    apriori dimana diperlukan perhitungan dengan scan seluruh database sebanyak k-itemset

    terpanjang.

    3. 5etapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset

    ditetapkan dari kandidat k-itemset yang supportnya lebih besar dari minimum support.>. /ila tidak didapat pola frekuensi tinggi maka seluruh proses dihentikan. /ila tidak, maka

    k tambah satu dan kembali ke bagian 1.

    CONTOH KASUS ALGORITMA APRIORI 

    5#/F 1. 9OC5OH 5I#CS#!S+ PCJ#F#C S#AI 

    ~ 9 ~

  • 8/17/2019 Bab 1 Data Mining

    10/29

    Definisi-definisi yang terdapat pada #ssociation Iule

    1. + adalah himpunan yang tengah dibicarakan.

    9ontoh2:#sparagus, /eans, L, 5omatoes;

    %. D adalah Himpunan seluruh transaksi yang tengah dibicarakan9ontoh2

    :5ransaksi 1, transaksi %, L, transaksi 1>;

    3. Proper Subset adalah Himpunan /agian murni9ontoh2

    #da suatu himpunan #=:a,b,c,;

    Himpunan /agian dari # adalahHimpunan !osong = :;

    Himpunan 1 nsur = :a;,:b;,:c;

    Himpunan % nsur = :a,b;,:a,c;,:b,c;Himpunan 3 nsur = :a,b,c,;Proper subset nya adalah Himpunan 1 nsur dan Himpunan % nsur

    >. +tem set adalah Himpunan item atau item-item di +

    9ontoh2#da suatu himpunan #=:a,b,c,;

    +tem set nya adalah

    :a;M:b;2:c;M:a,b;M:a,c;M:b,c;!- item set adalah +tem set yang terdiri dari ! buah item yang ada pada +. +ntinya ! itu

    adalah jumlah unsur yang terdapat pada suatu Himpunan

    9ontoh2 3-item set adalah yang bersifat 3 unsur@. +tem set (rekuensi adalah Jumlah transaksi di + yang mengandung jumlah item set tertentu.

    +ntinya jumlah transaksi yang membeli suatu item set.

    9ontoh2!ita gunakan tabel transaksi penjualan sayur di atas

    • frekuensi +tem set yang sekaligus membeli /eans dan /rocolli adalah 3

    ~ 10 ~

  • 8/17/2019 Bab 1 Data Mining

    11/29

    • frekuensi item set yang membeli sekaligus membeli /eans, Suash dan 5omatoes adalah

    %N. (rekuen +tem Set adalah item set yang muncul sekurang-kurangnya sekian0 kali di D. !ata

    sekian0 biasanya di simbolkan dengan . merupakan batas minimum dalam suatu

    transaksi9ontoh2

    Pertama kita tentukan = 3, karena jika tidak di tentukan maka maka frekuen item set tidak 

    dapat di hitung. Jika =3 untuk :#sparagus, /eans; apakah frekuen +tem set Jika kita

    hitung maka jumlah transaksi yang membeli asparagus sekaligus membeli beans adalah @.

    !arena @

  • 8/17/2019 Bab 1 Data Mining

    12/29

  • 8/17/2019 Bab 1 Data Mining

    13/29

    1. Pisahkan masing-masing item yang dibeli

    %. !emudian /uat 5abel seperti di ba*ah ini dan hitung jumlahnya2

    3. 5entukan $isalkan kita tentukan = 3, maka kita dapat menentukan frekuen itemset. Dari tabel di

    atas diketahui total untuk transaksi k = 1, semuanya lebih besardari . $aka2 (1= ::#;,

    :/;, :9;, :D;, :;;ntuk k = % % unsur", diperlukan tabel untuk tiap-tiap pasang item. Himpunan yang

    mungkin terbentuk adalah2 :#,/;, :#,9;, :#,D;, :#,;, :/,9;, :/,D;, :/,;, :9,D;,

    :9,;, :D,;.

     5abel-tabel untuk calon % item set

    ~ 13 ~

  • 8/17/2019 Bab 1 Data Mining

    14/29

    Dari tabel-tabel % unsur di atas, P artinya item-item yang dijual bersamaan, sedangkan S

     berarti tidak ada item yang dijual bersamaan atau tidak terjadi transaksi. Q

    melambangkan jumlah (rekuensi item set.

    Jumlah frekuensi item set harus lebih besar atau sama dengan jumlah (rekuensi item set

    Q

  • 8/17/2019 Bab 1 Data Mining

    15/29

    >. 5entukan ss-s" sebagai antecedent dan s sebagai conseuent dari (k yang telah didapat Pada

    (% didapat himpunan (%= ::9,D;,:9,;,:D,;; $aka dapat disusun2

    • ntuk :9,D;2

    Jika ss-s" = 9, Jika s = D, $aka R+f buy 9 then buy D

    Jika ss-s" = D, Jika s = 9, $aka R+f buy D then buy 9

    • ntuk :9,;2

    Jika ss-s" = 9, Jika s = , $aka R+f buy 9 then buy

    Jika ss-s" = , Jika s = 9, $aka R+f buy then buy 9

    • ntuk :D,;2

    Jika ss-s" = D, Jika s = , $aka R+f buy D then buy Jika ss-s" = , Jika s = D, $aka R+f buy then buy D

    @. Dari langkah di atas, kita mendapatkan N rule yang dapat digunakan, yaitu2

    • +f buy 9 then buy D

    • +f buy D then buy 9

    • +f buy 9 then buy

    • +f buy then buy 9

    • +f buy D then buy

    • +f buy then buy D

    N. Hitung support dan confidence

     

    Sehingga didapat table sebagai berikut2

    ~ 15 ~

  • 8/17/2019 Bab 1 Data Mining

    16/29

  • 8/17/2019 Bab 1 Data Mining

    17/29

  • 8/17/2019 Bab 1 Data Mining

    18/29

    1. (P-5ree dibentuk oleh sebuah akar yang diberi label null , sekumpulan upapohon yang

     beranggotakan item-item tertentu, dan sebuah tabel frequent #eader.%. Setiap simpul dalam (P-tree mengandung tiga informasi penting, yaitu label item

    menginformasikan jenis item yang direpresentasikan simpul tersebut,  support count ,

    merepresentasikan jumlah lintasan transaksi yang melalui simpul tesebut, dan pointer 

     penghubung yang menghubungkan simpul-simpul dengan label item sama antar-lintasan,

    dintandai dengan garis panah putus-putus.

    +#nt#h

     $isalkan diberikan tabel data transaksi sebagai berikut, dengan minimum support count 45%

     Co 5ransaksi1 a,b

    % b,c,d,g,h

    3 a,c,d,e,f  

    > a,d,e

    @ a,b,T,c

    N a,b,c,d

    ' a,r  

    a,b,c

    7 a,b,d

    1& b,c,e

    Ta:el 1. 5abel data transaksi mentah

    (rekuensi kemunculan tiap item dapat dilihat pada tabel berikut 2

    +tem (rekuensi

    a

     b '

    c N

    d @

    e 3

    f 1r 1

    T 1

    g 1

    h 1

    Ta:el 2. (rekuensi kemunculan tiap karakter 

    ~ 18 ~

  • 8/17/2019 Bab 1 Data Mining

    19/29

    Setelah dilakukan pemindaian pertama didapat item yang memiliki frekuensi di atas

     support count 45% adalah a,b,c,d, dan e. !elima item inilah yang akan berpengaruh dan akan

    dimasukkan ke dalam (P-tree, selebihnya r,T,g, dan h" dapat dibuang karena tidak berpengaruh

    signifikan.

    5abel berikut mendata kemunculan item yang  frequent dalam setiap transaksi, diurut

     berdasarkan yang frekuensinya paling tinggi.

    5+D 5ransaksi

    1 :a,b;

    % :b,c,d;

    3 :a,c,d,e;

    > :a,d,e;

    @ :a,b,c;

    N :a,b,c,d;

    ' :a; :a,b,c;

    7 :a,b,d;

    1& :b,c,e;

    Ta:el 3. 5abel data transaksi

    )ambar di ba*ah ini memberikan ilustrasi mengenai pembentukan (P-tree setelah

     pembacaan 5+D 1.

    8am:ar 1 Hasil pembentukan (P-tree setelah pembacaan 5+D 1

    ~ 19 ~

  • 8/17/2019 Bab 1 Data Mining

    20/29

    8am:ar 2 Hasil Pembentukan (P U5ree setelah pembacaan 5+D %

    8am:ar 3 Hasil Pembentukan (P-5ree setelah pembacaan 5+D 3

    8am:ar ( Hasil Pembentukan (P-5ree setelah pembacaan 5+D 1&

    Diberikan 1& data transaksi dengan @ jenis item seperti pada tabel di atas. )ambar 1 U >

    menunjukkan proses terbentuknya (P U5ree setiap 5+D dibaca. Setiap simpul pada (P-5ree

    mengandung nama sebuah item dan counter support yang berfungsi untuk menghitung frekuensi

    kemunculan item tersebut dalam tiap lintasan transaksi.

     !1)tree yang merepresentasi$an data transa$si pada tabel +.* dibentu$ dengan cara

     sebagai beri$ut6

    1. !umpulan data dipindai pertama kali untuk menentukan support count dari setiap item. +tem

    yang tidak frequent dibuang, sedangkan frequent item dimasukkan dan disusun dengan urutan

    menurun, seperti yang terlihat pada tabel %.1.

    ~ 20 ~

  • 8/17/2019 Bab 1 Data Mining

    21/29

    %. Pemindaian kedua, yaitu pembacaan 5+D pertama :a,b; akan membuat simpul a dan b,

    sehingga terbentuk lintasan transaksi CullRaRb. Support count dari setiap simpul bernilai

    a*al 1

    3. Setelah pembacaan transaksi kedua :b,c,d;, terbentuk lintasan kedua yaitu CullRbRcRd.

    Support count masing-masing count juga bernilai a*al 1. Valaupun b ada pada transaksi

     pertama, namun karena  prefi7 transaksinya tidak sama, maka transaksi kedua ini tidak bisa

    dimampatkan dalam satu lintasan.

    >. 5ransaksi keempat memiliki  prefi7 transaksi yang sama dengan transaksi pertama, yaitu a,

    maka lintasan transaksi ketiga dapat ditimpakan di a, sambil menambah  support count dari a,

    dan selanjutnya membuat lintasan baru sesuai dengan transaksi ketiga.lihat gambar %.3"

    @. Proses ini dilanjutkan sampai (P-tree berhasil dibangun berdasarkan tabel data transaksi

    yang diberikan.

    : Penera$an Alg#r!tma P;8r#9th

    Setelah tahap pembangunan (P-tree dari sekumpulan data transaksi, akan diterapkan

    algoritma (P-gro*th untuk mencari frequent itemset yang signifikan. #lgoritma (P-gro*th

    dibagi menjadi tiga langkah utama, yaitu 2

    1. 5ahap Pembangkitan onditional 1attern (ase

    onditional 1attern (ase merupakan subdatabase yang berisi prefi7 pat# lintasan prefiK"

    dan  suffi7 pattern pola akhiran". Pembangkitan conditional pattern base didapatkan

    melalui (P-tree yang telah dibangun sebelumnya.

    %. 5ahap Pembangkitan onditional (P-tree

    Pada tahap ini,  support count dari setiap item pada setiap conditional pattern base

    dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama

    dengan minimum support count 4 akan dibangkitkan dengan conditional (P-tree.3. 5ahap Pencarian  frequent itemset #pabila 9onditional (P-tree merupakan lintasan

    tunggal  single pat#&, maka didapatkan  frequent itemset dengan melakukan kombinasi

    item untuk setiap conditional (P-tree. Jika bukan lintasan tunggal, maka dilakukan

     pembangkitan (P-gro*th secara rekursif.

    !etiga tahap tersebut merupakan langkah yang akan dilakukan untuk mendapat  frequent 

    itemset, yang dapat dilihat pada algoritma berikut 2

    ~ 21 ~

  • 8/17/2019 Bab 1 Data Mining

    22/29

    )ambar #lgoritma (P-)ro*th

    #kan dicoba menerapkan algoritma (P-gro*th pada kasus contoh di atas.

    Fangkah-langkah yang harus ditempuh akan dijelaskan pada bagian berikut ini.

    . Proses pembentukan dapat dilihat pada gambar berikut 2

    8am:ar Fintasan yang mengandung simpul e

    ~ 22 ~

  • 8/17/2019 Bab 1 Data Mining

    23/29

    8am:ar Fintasan mengandung simpul d

    8am:ar Fintasan mengandung simpul c

    8am:ar Fintasan mengandung simpul b

    8am:ar Fintasan mengandung simpul a

    ~ 23 ~

  • 8/17/2019 Bab 1 Data Mining

    24/29

    #lgoritma (P-gro*th menemukan frequent itemset yang berakhiran suffi7 tertentu dengan

    menggunakan metode divide and conquer untuk memecah problem menjadi subproblem yang

    lebih kecil.

    9ontohnya, jika kita ingin menemukan semua frequent itemset yang berakhiran e. Oleh

    karena itu, kita harus mengecek apakah support count dari e memenuhi minimum support count 

    45%. !arena support count dari e adalah 3, dan 3W 4, maka e adalah item yang frequent.

    Setelah mengetahui bah*a item e adalah item yang freuent, maka subproblem selanjutnya

    adalah menemukan frequent itemset dengan akhiran de, ce, be, dan ae. Dengan menggabungkan

    seluruh solusi dari subproblem yang ada, maka himpunan semua  frequent itemset yang

     berakhiran item e akan didapatkan.

    ntuk lebih memperjelas, dapat dilihat contoh menemukan  frequent itemset yang

     berakhiran dengan item e di ba*ah ini

    8am:ar #da lintasan yang tidak berakhir di e, yaitu CullRbRc

    1. Fangkah pertama yang dilakukan adalah membangun sebuah upapohon (P-tree dengan

    hanya menyertakan lintasan yang berakhir di e.

    %. Support count dari item e dihitung dan dibandingkan dengan minimum support count 45-.

    !arena memenuhi, maka :e; termasuk frequent itemset , karena support count5+.

    3. !arena item e  frequent, maka perlu dipecahkan subproblem untuk menemukan  frequent 

    itemset yang berkahiran dengan de, ce, be, dan ae. Sebelum meme4ahkan subproblem ini,

    ~ 24 ~

  • 8/17/2019 Bab 1 Data Mining

    25/29

    maka upapohon (P-tree tersebut harus diubah terlebih dahulu menjadi conditional (P-tree.

    onditional (P-tree mirip dengan (P-tree biasa, namun conditional !1)tree dimaksudkan

    untuk mencari frequent itemset yang berakhiran item tertentu.

    >. onditional (P-tree dapat dibentuk dengan cara 2

    8am:ar Semua simpul e dibuang, Support count simpul di atasnya sudah diperbaharui

    a. Setiap lintasan yang tidak mengandung e dibuang. Pada contoh, lintasan terkanan,

    terdapat lintasan yang tidak mengandung e, yaitu nullRbRc. Fintasan ini dapat dibuang

    dengan cara mengurangi  support count menjadi 1, sehingga lintasan tersebut hanya

    mengandung transaksi :b,c,e;, seperti pada gambar di atas.

     b. Setelah semua lintasan berakhir di e, maka simpul e dapat dibuang, karena setiap nilai

     support count  pada simpul orang tuanya telah mencerminkan transaksi yang berakhir di

    e. Subproblem selanjutnya yang harus dipecahkan adalah mencari lintasan  frequent 

    itemset yang berakhir di de, ce, be, dan ae.

    8am:ar onditional !1)tree untu$ e lintasan mengandung be dihapus, karena tidak 

     frequent ".

    ~ 25 ~

  • 8/17/2019 Bab 1 Data Mining

    26/29

    c. !arena nilai  support count dari b adalah 1, yang berarti transaksi yang mengandung b

    dan e hanya 1 transaksi, maka berdasarkan prinsip anti-monotone heuristic, simpul b dan

    lintasan yang mengandung be dapat dibuang, karena jika item  b tidak freuent, maka

    setiap transaksi yang berakhiran be juga tidak  frequent. 5erbentuk onditional !1)tree

    untuk e, seperti pada gambar di atas.

    @. (P-tree menggunakan onditional (P-tree untuk membangun pohon lintasan prefiK untuk 

    menemukan frequent itemset yang berakhir dengan pasangan item de,ce, dan ae.

    N. ntuk Fintasan PrefiK de, yang dibentuk dari onditional !1)tree untuk item e dapat dilihat

     pada gambar berikut

    8am:ar Pohon PrefiK yang berakhir di de

     

    '. Dengan menjumlahkan support count dari d, yang tidak lain adalah jumlah frequent itemset 

    yang berakhir di de, didapat bah*a :d,e; juga termasuk dalam frequent itemset.

    . Selanjutnya #lgoritma (P-tree akan mengulangi langkah yang sama dengan langkah ketiga,

    sehingga didapatkan conditional !1)tree untu$ de hanya berisi satu daun, yaitu a, dengan

     support count %. Sehingga :a,d,e; termasuk dalam frequent itemset.

    7. Subproblem berikutnya yaitu dengan menemukan  frequent itemset yang berakhiran dengan

    ce. Didapat :c,e; juga merupakan frequent itemset. /egitupula dengan :a,e;.

    Setelah memeriksa  frequent itemset untuk beberapa akhiran  suffi7", maka didapat hasil yangdirangkum dalam tabel berikut2

    Suffi7 !requent 3temset  

    :e;,:d,e;,:a,d,e;,:c,e;,:a,e;

    D :d;,:c,d;,:b,c,d;,:a,c,d;,:b,d;,:a,b,d;,:a,d;

    9 :c;,:b,c;,:a,b,c;,:a,c;

    / :b;,:a,b;

    ~ 26 ~

  • 8/17/2019 Bab 1 Data Mining

    27/29

    # :a;

    Dengan metode divide and conquer ini, maka pada setiap langkah rekursif, algoritma (P-gro*th

    akan membangun sebuah conditional !1)tree baru yang telah diperbaharui nilai  support count,

    dan membuang lintasan yang mengandung item-item yang tidak frequent lagi.

    ~ 27 ~

  • 8/17/2019 Bab 1 Data Mining

    28/29

    BAB III

    %EIMPULAN

    3.1. %es!m$ulan

    /eberapa kesimpulan yang dapat ditarik dari penulisan makalah ini adalah Penggunaan

    metode analisis keranjang pasar sangat membantu dalam mengidentifikasi item-item produk 

    yang mungkin dibeli bersamaan dengan produk lain. algoritma Apriori membutuhkan *aktu

    komputansi yang lama untuk mendapatkan  frequent itemsets. !arena berulang kali

    melakukan pemindaian data. Selain itu algoritma ini membutuhkan alokasi memori yang

     besar untuk melakukan pencarian itemsets. !1)2ree yang terbentuk dapat memampatkan data transaksi yang memiliki memilki item

    yang sama, sehingga penggunaan memori komputer lebih sedikit, dan proses pencarian

     frequent itemset   menjadi lebih cepat.  !1)"rowt# hanya membutuhkan dua kali  scanning 

    database  dalam mencari  frequent itemsets  sehingga *aktu yang dibutuhkan pun menjadi

    relatif singkat dan efisien.

    3.2. aran

    Pembuatan makalah ini sangat jauh dari kesempurnaan, karena keterbatasan sumber yang

    kami peroleh. Sehingga isi dari makalah ini masih bersifat umum, oleh karena itu penulis

    merasa sangat mengharapkan saran dari para pembaca yang bersifat membangun agar kiranya

    kami mampu mengisi kekurangan itu dengan saran dari para pembaca. Dan semoga makalah

    yang penulis buat ini dapat bermanfaat bagi para pembaca.

    ~ 28 ~

  • 8/17/2019 Bab 1 Data Mining

    29/29

    DATAR PUTA%A

    r*in. %&&7.  Analisis 'ar$et (as$et Dengan Algoritma Apriori dan !1)"rowt#. niversitas

    Sriwi8aya.0urnal.

    Han, Jia*eiM !amber, $icheline. %&&N .  Data 'ining 6oncepts and 2ec#niques.  San

    (rancisco2 $organ !aufmann.

    Johan. %&1&. Analisa Keran8ang 1asar dengan Algoritma Apriori pada Data 2ransa$si 'ini

     'ar$et Lima (intang . Stikom Pelita +ndonesia 2 Pekanbaru.

    Oli4ia, $erry. %&13. Association Rule %Algoritma A 1riori&. ni4ersitas )unadarma.

    Sari, +ndah $ulia. Dkk. %&13. Algoritma !1)"rowt#. ni4ersitas Hasanuddin 2 $akassar.

    Setia*ati, De4i Dinda.  1enggunaan 'etode Apriori ntu$ analisis Keran8ang 1asar pada

     Data 2ransa$si 1en8ualan 'inimar$et 'engguna$an 0ava 9 'yS:L. ni4ersitas

    )unadarma 2 Depok.