analisis klasifikasi menggunakan metode regresi …digilib.unila.ac.id/29829/2/skripsi tanpa bab...

ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI

LOGISTIK ORDINAL DAN KLASIFIKASI NAÏVE BAYES PADA DATA

ALUMNI UNILA TAHUN 2016

(Skripsi)

Oleh

SHINTIA FARAMUDHITA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2018

ABSTRACT

ANALYSIS OF CLASSIFICATION USING ORDINAL LOGISTIC

REGRESSION AND NAIVE BAYES CLASSIFIER ON ALUMNI UNILA

DATA IN 2016

By

Shintia Faramudhita

Classification is a form of data analysis that seeks a set of patterns, models or

functions which describe and distinguish data objects to be grouped into specific

classes of available classes. In this research will be classified alumni Unila in the

classes Not Well, Less Smoothly and Smooth in finding job. The analytical method

used is Ordinal Logistic Regression which is a classifier method with statistical

techniques and Naϊve Bayes which is a classifier method by combining statistical

techniques and data mining. This study aims to determine which method has a

better accuracy rate in classify the smoothness of alumni Unila 2016 in finding

job. By performing ten repetitions of each method, obtained that Ordinal Logistic

Regression has an average error rate smaller than Naϊve Bayes, but in the two-

Means test there is no significant difference of both methods in classifying the

level of smoothness of alumni Unila 2016 in finding job.

Key Word : Classification, Ordinal Logistic Regression, Naϊve Bayes Classifier

ABSTRAK

ANALISIS KLASIFIKASI MENGGUNAKAN REGRESI

LOGISTIK ORDINAL DAN KLASIFIKASI NAÏVE BAYES PADA

DATA ALUMNI UNILA TAHUN 2016

Oleh

Shintia Faramudhita

Klasifikasi adalah bentuk analisis data yang mencari sekumpulan pola, model

atau fungsi yang menggambarkan dan membedakan objek data untuk

dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia. Pada

penelitian ini akan dilakukan klasifikasi tingkat kelancaran alumni unila tahun

2016 yang dibagi menjadi tiga kelas bertingkat, yaitu kelas Tidak Lancar (TL),

kelas Kurang Lancar (KL) dan kelas Lancar (L). Metode analisis yang digunakan

adalah Regresi Logistik Ordinal yang merupakan metode pengklasifikasi dengan

teknik statistika dan Naϊve Bayes yang merupakan metode pengklasifikasi dengan

menggabungkan teknik statistika dan data mining. Penelitian ini bertujuan untuk

mengetahui metode mana yang mempunyai tingkat akurasi yang lebih baik dalam

mengkalsifikasi tingkat kelancaran alumni unila tahun 2016 dalam mencari

pekerjaan. Dengan melakukan sepuluh kali pengulangan klasifikasi dari masing-

masing metode, didapat bahwa Regresi Logistik Ordinal mempunyai rata-rata

tingkat error yang lebih kecil dibandingkan Naϊve Bayes akan tetapi pada

pengujian dua rata-rata tidak ada perbedaan secara signifikan penggunaan

kedua metode dalam mengklasifikasi tingkat kelancaran alumni Unila tahun 2016

dalam mencari pekerjaan.

Kata Kunci : Klasifikasi, Regresi Logistik Ordinal, Klasifikasi Naϊve Bayes

ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK ORDINAL

DAN KLASIFIKASI NAÏVE BAYES PADA DATA ALUMNI UNILA TAHUN 2016

Oleh

SHINTIA FARAMUDHITA

Skripsi

Sebagai Salah Satu Syarat untuk Memperoleh Gelar

SARJANA SAINS

Pada

Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2018

RIWAYAT HIDUP

Penulis dilahirkan di Rantau Kadam pada tanggal 12 Februari 1996. Penulis

merupakan anak pertama dari pasangan Bapak Seiswoyo dan Ibu Jamilatul Auda,

serta kakak dari Freby Raka Mura dan Adelia Ilmianti.

Penulis memulai pendidikan dari sekolah dasar di SD Negeri 2 Rantau Kadam pada

tahun 2001. Pendidikan sekolah menengah pertama di SMP Negeri 1 Karang Dapo

pada tahun 2007. Pendidikan sekolah menengah atas di SMA Negeri 1 Lubuklinggau

pada tahun 2011.

Penulis melanjutkan pendidikan di perguruan tinggi dan terdaftar sebagai mahasiswa

Jurusan Matematika dan Ilmu Pengetahuan Alam Universitas Lampung melalui jalur

SBMPTN pada tahun 2013. Pada periode tahun 2014/2015 penulis trdaftar menjadi

anggota bidang Kesekretariatan Himpunan Mahasiswa Matematika Unila dan

anggota biro Sirkulasi dan Periklanan UKMF Natural FMIPA Unila dan sebagai

Pimpinan Penelitian Pengembangan dan Kesekretariatan (Litbangkes) UKMF

Natural FMIPA Unila tahun 2015/2016.

Sebagai bentuk aplikasi bidang ilmu kepada masyarakat, penulis telah menyelesaikan

Kerja Praktik (KP) di Badan Pusat Statitik Kota Bandar Lampung selama kurang

lebih satu bulan. Penulis juga telah melakukan Kuliah Kerja Nyata Tematik (KKN-

Tematik) pada tahun 2016 selama 30 hari di Desa Payung Makmur, Kec. Pubian,

Kab. Lampung Tengah.

PERSEMBAHAN

Puji dan syukur kepada Allah SWT berkat rahmat dan hidayah-Nya

sebuah karya sederhana namun penuh perjuangan telah terselesaikan

Kupersembahkan Skripsi ini untuk :

Kedua orang tuaku tercinta

Ayahanda Seiswoyo & Ibunda Jamilatul Auda

Serta

Adik-Adiku

Freby Raka Mura & Adelia Ilmianti

Terimakasih atas jasa-jasa yang tak bisa ternilai harganya Terimakasih atas setiap doa tulus yang kalian panjatkan

Terimakasih atas cinta dan kasih sayang yang kalian berikan

SANWACANA

Puji syukur kehadirat Allah SWT berkat rahmat dan hidayahnya, sehingga penulis

dapat menyelesaikan skripsi ini dengan baik. Shalawat serta salam senantiasa tercurah

kepada junjungan kita Nabi Muhammad SAW, suri tauladan terbaik sepanjang masa.

Pada proses penyusunan skripsi, penulis memperoleh banyak bantuan, dukungan,

bimbingan serta kritik dan saran yang membangun sehingga skripsi ini mampu

terselesaikan. Oleh karena itu, dalam kesempatan ini penulis ingin mengucapkan

terima kasih kepada :

1. Bapak Drs. Rudi Ruswandi, M.Si.,selaku dosen pembimbing utama yang telah

membimbing penulis dengan setulus hati, menyumbangkan ilmunya,

memberikan motivasi serta telah banyak meluangkan waktu ditengah

kesibukannya untuk membimbing hingga skripsi ini terselesaikan.

2. Bapak Subian Saidi, S.Si., M.Si., selaku dosen pembimbing pembantu yang telah

banyak membantu, memberi masukan serta dengan sabar memberikan

pengarahan dalam proses penyusunan skripsi ini.

3. Ibu Dian Kurniasari, S.Si., M.Sc., selaku dosen penguji yang telah memberikan

kritik dan saran yang membangun kepada penulis dalam proses penyelesaian

skripsi ini.

4. Ibu Widiarti, M.Si., selaku Pembimbing Akademik.

5. Ibu Dra. Wamiliana, M.A.,Ph.D., selaku Ketua Jurusan Matematika FMIPA

Universitas Lampung.

6. Bapak Prof. Warsito, S.Si., D.E.A, Ph.D selaku dekan FMIPA Universitas

Lampung.

7. Dosen, staf dan karyawan Jurusan Matematika FMIPA UNILA yang telah

memberikan ilmu pengetahuan dan segala bentuk bantuan kepada penulis.

8. Orang tuaku tercinta dan adik-adiku tersayang Freby dan Ilmia, serta seluruh

keluarga yang senantiasa memberikan kasih sayang yang tiada terkira, selalu

menjadi penyemangat dan selalu memotivasi penulis untuk memberikan yang

terbaik, serta tak henti-hentinya mendoakan untuk keberhasilan penulis.

9. Teman-teman terbaik di kampus, Suci, Karina, Suri, Maimuri, Citra, Eka, Siti,

Retno, Della, Tiwi, Yucky, yang telah banyak membantu, memberikan

perhatian dan dukungan kepada penulis.

10. Teman-teman satu bimbingan Aiman, Cinkia, Ratna, Vinny dan Citra yang selalu

membantu penulis, berjuang bersama serta saling mendukung dalam

menyelesaikan skripsi ini.

11. Keluarga besar Natural FMIPA terima kasih atas pengalaman yang luar biasa.

12. Teman-teman seperjuangan Matematika 2013 yang tidak bisa penulis

sebutkan satu persatu.

13. Seluruh pihak yang telah membantu penulis yang tidak dapat disebutkan satu

persatu atas peran dan dukungannya dalam menyusun skripsi ini.

Bandar lampung, Januari 2018

Penulis,

Shintia Faramudhita

DAFTAR ISI

Halaman

DAFTAR TABEL

DAFTAR GAMBAR

I. PENDAHULUAN

1.1 Latar Belakang ........................................................................................ 1

1.2 Tujuan Penelitian ..................................................................................... 3

1.3 Manfaat Penelitian ................................................................................... 3

II. TINJAUAN PUSTAKA

2.1 Konsep Klasifikasi ................................................................................... 4

2.2 Tracer Study ........................................................................................... 4

2.3 Data Mining ............................................................................................. 5

2.4 Skala Pengukuran Variabel Kategorik ................................................... 6

2.5 Variabel Dependen dan Variabel Independen ........................................ 6

2.6 Regresi Logistik ...................................................................................... 7

2.7 Regresi Logistik Ordinal ......................................................................... 8

2.7.1 Maksimum Likelihood Estimation .............................................. 9

2.7.2 Uji Ratio Likelihood .................................................................. 13

2.7.3 Uji Wald ..................................................................................... 14

2.8 Klasifikasi Naive Bayes......................................................................... 14

2.9 Error Rate .............................................................................................. 16

2.10 Uji Dua Rata-Rata ................................................................................. 18

III. METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian ............................................................... 19

3.2 Data Penelitian ....................................................................................... 19

3.3 Variabel Penelitian ................................................................................ 20

3.4 Metode Penelitian .................................................................................. 21

3.5 Diagram Alir .......................................................................................... 23

IV. HASIL DAN PEMBAHASAN

4.1 Deskripsi Data ....................................................................................... 25

4.1.1 Deskripsi Data Berdasarkan Program Studi ................................. 27

4.1.2 Deskripsi Data Berdasarkan Jenjang Pendidikan ......................... 27

4.1.3 Deskripsi Data Berdasarkan IPK ................................................. 28

4.1.4 Deskripsi Data Berdasarkan Lama Studi ..................................... 28

4.1.5 Deskripsi Data Berdasarkan Cara Mencari Pekerjaan ................. 29

4.1.6 Deskripsi Data Berdasarkan Penguasaan Pengetahuan Diluar

Bidang Studi ............................................................................... 30

4.2 Regresi Logistik Ordinal ....................................................................... 31

4.2.1 Model Awal Regresi Logistik Ordinal ......................................... 31

4.2.2 Model Akhir Regresi Logistik Ordinal ........................................ 34

4.3 Klasifikasi Naive Bayes......................................................................... 37

4.4 Rata-Rata Tingkat Akurasi dan Rata-Rata Tingkat Error ..................... 42

4.5 Uji Dua Rata-Rata ................................................................................. 43

V. KESIMPULAN

DAFTAR PUSTAKA

LAMPIRAN

DAFTAR TABEL

DAFTAR GAMBAR

I. PENDAHULUAN

1.1 Latar Belakang

Menurut Han dan Kamber (2012), klasifikasi adalah bentuk analisis data mencari

sekumpulan model, pola atau fungsi yang menggambarkan dan membedakan objek

data untuk dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia.

Dalam klasifikasi terdapat tiga tahapan utama, yaitu (1) identifikasi atau

pembentukan model berdasarkan data training, (2) evaluasi model dan (3) penerapan

model dengan menggunakan data testing. Variabel yang digunakan dalam klasifikasi

terdiri dari variabel prediktor yang merupakan faktor-faktor yang mempengaruhi atau

dapat menggambarkan variabel respon. Dalam hal ini variabel respon berupa variabel

kategorik baik yang mempunyai pengurutan dalam penomoran (ordinal) maupun

tidak (nominal).

Beberapa metode statistika yang dapat digunakan dalam klasifikasi melalui analisis

data kategorik, yaitu Regresi Logistik Biner, Regresi Logistik Multinomial, Regresi

Logistik Ordinal dan Model Log Linier. Pada penelitian ini data yang digunakan

adalah klasifikasi tingkat kelancaran alumni Universitas Lampung (Unila) tahun

2016 dalam mendapatkan pekerjaan. Klasifikasi alumni dibagi menjadi kelompok

2

tidak lancar, kelompok kurang lancar dan kelompok lancar berdasarkan lamanya

waktu yang dibutuhkan untuk mendapatkan pekerjaan . Variabel respon yang

digunakan berbentuk kategorik bertingkat atau ordinal. Sehingga metode yang dapat

digunakan adalah Regresi Logistik Ordinal.

Metode pengklasifikasi lain yang dapat digunakan adalah Klasifikasi Naϊve Bayes.

Naϊve Bayes merupakan metode penggolongan berdasarkan probabilitas sederhana

dan dirancang untuk dipergunakan dengan asumsi bahwa antar satu kelas dengan

kelas yang lain tidak saling tergantung (independen) meskipun asumsi ini tidak

terpenuhi, dalam prakteknya masih berfungsi dengan baik. Naϊve Bayes merupakan

gabungan dari teknik statistika yang didasari oleh Teorema Bayes dan data mining

yang mampu memberikan informasi berguna tentang teknik klasifikasi untuk

menentukan alumni Unila akan bergabung dengan kelompok mana dalam mencari

pekerjaan.

Karena kedua metode klasifikasi diatas memiliki perbedaan, dimana Regresi Logistik

Ordinal merupakan metode klasifikasi yang menggunakan teknik statistika,

sedangkan Naϊve Bayes adalah metode klasifikasi yang menggabungkan teknik

statistika dengan data mining. Sehingga menarik untuk mengkaji perbandingan hasil

klasifikasi dari kedua metode tersebut berdasarkan tingkat akurasi yang lebih baik.

Akan tetapi, penelitian ini hanya dikhususkan untuk pengklasifikasian data Alumni

Unila tahun 2016.

3

1.2 Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah :

1. Menghitung rata-rata tingkat akurasi dan tingkat error metode Regresi Logistik

Ordinal dan Naive Bayes dalam mengklasifikasi tingkat kelancaran alumni Unila

tahun 2016 dalam mencari pekerjaan.

2. Menguji perbandingan rata-rata tingkat akurasi dan tingkat error metode Regresi

Logistik Ordinal dan Naive Bayes dalam mengklasifikasi tingkat kelancaran

alumni Unila tahun 2016 dalam mencari pekerjaan

1.3 Manfaat penelitian

Adapun manfaat penelitian ini adalah :

1. Untuk mengetahui rata-rata tingkat akurasi dan tingkat error metode Regresi

Logistik Ordinal dan Naive Bayes dalam klasifikasi tingkat kelancaran alumni

Unila Tahun 2016 dalam mencari pekerjaan.

2. Dapat melihat perbandingan rata-rata tingkat akurasi dan tingkat error metode

Regresi Logistik Ordinal dan Naϊve Bayes dalam klasifikasi tingkat kelancaran

alumni Unila Tahun 2016 dalam mencari pekerjaan.

II. TINJAUAN PUSTAKA

2.1. Konsep Klasifikasi

Menurut Prasetyo (2012), klasifikasi merupakan kegiatan menilai objek data

untuk memasukkanya ke dalam kelas tertentu dari sejumlah kelas yang tersedia.

Dalam klasifikasi terdapat dua pekerjaan utama yang dilakukan, yaitu (1)

pembangunan model sebagai prototipe untuk disimpan sebagai memori dan (2)

penggunaan model tersebut untuk melakukan pengenalan, klasifikasi, prediksi

pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam

model yang sudah disimpan.

2.2. Tracer Study

Tracer Study adalah kegiatan penelusuran alumni yang bertujuan untuk

mengetahui kegiatan alumni setelah lulus dari perguruan tinggi, transisi dari dunia

pendidikan ke dunia kerja, situasi kerja, penguasaan kompetensi dan penggunaan

kompetensi dalam dunia kerja. Responden pada penyelenggaraan tracer study

adalah alumni yang telah lulus 1-2 tahun sebelum pelaksanaan tracer study

(Syafiq dan Fikawati, 2016).

5

2.3. Data Mining

Menurut Han dan Kamber (2012), data mining adalah suatu proses menemukan

pola dan mengidentifikasi sekumpulan informasi dari penyimpanan data

(database) dengan menggunakan teknik statistik, matematika, kecerdasan buatan

dan machine learning. Sedangkan menurut Witten dan Frank (2005) data mining

adalah proses mengekstraksi informasi yang berguna dari suatu database untuk

menganalisis struktural pola data tersebut yang dapat dijadikan bahan interpretasi

data dan pembentukan model prediksi dari data tersebut.

Berdasarkan definisi di atas dapat disimpulkan bahwa data mining adalah suatu

proses mengekstrasi dan identifikasi dari database dengan menggunakan teknik

statistika, matematika, kecerdasan buatan dan machine learning yang dapat

menjelaskan pola data dan membuat model prediksi dari data tersebut.

Database yang akan digunakan dalam data mining dibagi menjadi dua yaitu data

training dan data testing. Data training adalah data yang digunakan untuk

menghasilkan model klasifikasi. Sedangkan data testing adalah data yang

digunakan untuk mengevaluasi model. Untuk menentukan banyak komposisi data

training dan data testing digunakan Teknik Cross-Validation atau yang sering

disebut estimasi rotasi. Dalam cross-validation proporsi data training dan data

testing tergantung pada analisis misalnya data dibagi menjadi 50% : 50% atau 2/3

untuk training dan 1/3 untuk testing. 2:1 (Han dan Kamber (2012) .

6

Gambar 2.1. Proses Pekerjaan Klasifikasi

2.4. Skala Pengukuran Variabel Kategorik

data kategorik mempunyai dua jenis skala pengukuran, yaitu skala nominal dan

skala ordinal. Skala nominal adalah skala yang tidak mempunyai urutan dalam

penomoranya (contoh : islam, kristen, hindu, budha). Sedangkan skala ordinal

adalah skala yang mempunyai urutan dalam penomoranya (contoh: sangat baik,

baik, cukup baik, kurang baik), baik itu dari urutan terkecil ke terbesar ataupun

sebaliknya (Agresti, 2002),

2.5. Variabel Dependen dan Variabel Independen

Menurut Nugraha (2014), dalam permodelan statistik (analisis independensi)

muncul istilah variabel independen (X) dan variabel dependen (Y). Suatu variabel

dikatakan variabel dependen jika nilainya di pengaruhi variabel lain yaitu variabel

independen. Dalam analisis data kategorik, variabel dependen berupa data

kategorik, sedangkan variabel independen dapat berupa data kontinu (ratio dan

interval) atau data diskrit (ordinal dan nominal) .

Data

Input Data

Training

Input Data

Testing

Pembentukan

Model

Penerapan

Model

Output

Data

Testing

7

2.6. Regresi Logistik

Regresi Logistik adalah model regresi nonlinier yang digunakan untuk

menganalisis pola hubungan antara sekumpulan variabel independen (X) dengan

variabel dependen (Y) bertipe kategorik atau kualitatif. Kategori dari variabel

dependen dapat terdiri atas dua kemungkinan nilai (dichotomous), seperti ya/tidak

sukses/gagal dan lain-lain, atau lebih dari dua kemungkinan (polychotomous),

seperti sangat tidak setuju, tidak setuju dan setuju.

Terdapat dua alasan utama untuk memilih Regresi Logistik dalam menganalisis

data kategorik, yaitu (1) dari sudut pandang matematika fungsi yang digunakan

lebih mudah dan lebih fleksibel (2) parameter yang dihasilkan secara terperinci

dapat digunakan dalam analisis yang mendalam. Regresi Logistik muncul karena

ketidakmampuan dari model regresi linier untuk

memprediksi nilai Y yang lebih dari satu, Regresi Logistik mempunyai variabel

respon Y dan X variabel prediktor, dimisalkan π(x) = P(Y=jlXi) dengan i = 1,2, ..

i. Bentuk spesifik model regresi logistik adalah :

π(x)

(Hosmer & Lemeshow, 2000) (2.1)

Persamaan (2.1) memperlihatkan bahwa ketika x → ∞, π(x) ↓ 0 jika β<0 dan π(x)

↑ 0 jika β>0.

8

2.7. Regresi Logistik Ordinal

Regresi Logistik Ordinal merupakan salah satu metode statistika untuk

menganalisis variabel respon yang mempunyai skala data ordinal yang memiliki

tiga kategori atau lebih. Sedangkan variabel prediktor yang digunakan berupa data

katgorik dan atau kuantitatif. Pada regresi logistik ordinal model berupa Model

Logit Kumulatif (Cumulative Logit Models).

Model logit kumulatif ini diperoleh dengan membandingkan peluang kumulatif

yaitu peluang kurang dari atau sama dengan kategori respon ke-j pada i variabel

prediktor yang dinyatakan dalam vektor xi adalah P(Y≤ j |Xi), dengan peluang

lebih dari kategori respon ke-j pada i variabel prediktor vektor Xi P(Y>j|Xi).

Peluang kumulatif P(Y≤ j|Xi) didefinisikan sebagai berikut :

P(Y≤ j |Xi) = π(x) =

=

∑

∑

(2.2)

Model logit kumulatif didefinisikan dengan :

gj(x) = ln[

= ln[

(

)

]

= ln (

= - (2.3)

Dimana, j adalah jumlah kategori variabel respon j = 1, 2, ..., J dan i adalah

jumlah variabel prediktor. Jika terdapat kategori respon dimana j=1,2,3,..,J maka

9

nilai peluang untuk tiap kategori respon dapat dihitung dengan menggunakan

persamaan dibawah ini :

Φj(x) = {

(2.4)

Untuk menentukan kelas dari suatu objek dapat dilihat dari nilai peluang kategori

yang paling besar.

2.7.1 Maksimum Likelihood Estimation

Metode nilai kemungkinan maksimum (Maximum Likelihood Estimator)

merupakan metode yang digunakan untuk menduga parameter-parameter model

regresi logistik dengan memberikan nilai estimasi dengan memaksimumkan

fungsi Likelihood . Fungsi kumulatif peluang bersama dari Y=( Y1, Y2, ..., Yn) di

notasikan dengan f(y|β). Fungsi likelihood merupakan product dari f(y|β), berikut

bentuk umum dari fungsi Likelihood untuk regresi logistik ordinal .

l(β) = ∏

] (2.5)

Dengan yj =

Dari persamaan di atas didapatkan fungsi ln- Likelihood sebagai berikut

L(β)= ln l(β) = ∑ ln[ + ln[ }

= ∑ *

+ [

( )( )]

ln*

+} (2.6)

(Hosmer & Lemeshow, 2000)

10

Maksimum ln-Likelihood diperoleh dengan mendeferensialkan L(β) terhadap

parameternya kemudian hasil dari turunan tersebut dibuat sama dengan nol.

=

∑

( ∑

)( ∑

)

( ∑ )( )

(2.7)

=

( ∑

)( ∑

)

( ∑ )( )

( ∑

)

( ∑ )

(2.8)

= 0 (2.9)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.10)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.11)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.12)

11

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.13)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.14)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.15)

=

∑

+ ( ∑

)( ∑

∑

)

( ∑ )( )( ∑

)

+ ( ∑

)

( ∑ )

(2.16)

12

Pada saat diferensial pertama dalam suatu parameter masih mengandung

parameter lain, maka mendapatkan nilai pendugaan parameter dari fungsi ln-

likelihood pada regresi logistik ordinal dilakukan metode iterasi Newton Raphson.

Newton Raphson adalah metode iterasi untuk menyelesaikan persamaan nonlinier.

Berikut cara kerja Newton Raphson dalam menentukan nilai berdasarkan fungsi

L(β) yang telah dimaximumkan, Persamaan Newton Rapshon sebagai berikut :

(2.17)

Dengan :

= [

]

= [

]

=

[

]

=

[

]

Matriks Hessian adalah matrik yang mempunyai elemen-elemen ha,b yang

merupakan turunan kedua dari fungsi ln-likelihood terhadap semua parameter

( Agresti, 2002).

13

2.7.2 Uji Ratio Likelihood

Uji Ratio Likelihood dilakukan untuk menguji kesesuain model dengan variabel-

variabel prediktor secara keseluruhan (Hosmer & Lemeshow, 2000).

Adapun hipotesis yang digunakan dalam uji ratio likelihood

H0 : β1 = β2 = … = βp = 0

H1 : paling sedikit salah satu dari βr ≠ 0 dengan r = 1,2,…,p

Dengan statistik uji

G = -2 log (

) (2.18)

G = -2 ln (

)

(

)

∏

(2.19)

G = 2 {∑ ) + (1- ) ln(1- )]-[n1 ln(n1) + n0 ln(n0) - n ln(n)]} (2.20)

Dengan :

n1 = banyaknya observasi berkategori 1

n0 = banyaknya observasi berkategori 0

n = banyaknya observasi (n1+ n0)

Statistik uji G mengikuti distribusi chi-square. Sehingga untuk mengambil

keputusan dilakukan perbandingan dengan χ2 tabel. Kriteria penolakan tolak H0

jika χ

2 hit >

χ

2(db,a)

14

2.7.3 Uji Wald

Uji Wald dilakukan untuk mengetahui variabel-variabel prediktor mempengaruhi

variabel respon secara individu dengan kata lain apakah suatu variabel prediktor

layak dimasukan kedalam model . Hipotesis yang digunakan dalam uji wald :

H0 : βi = 0;

H1 : βi ≠ 0, dengan i = 1,2,…,n

Dengan statistik uji

Wi =

]2

(2.21)

Statistik uji Wi mengikuti sebaran normal baku. Sehingga untuk memperoleh

keputusan dilakukan perbandingan dengan distribusi normal baku (Z). Dengan

kriteria pengambilan keputusan tolak H0 Jika Wi > Zα/2.

2.8. Klasifikasi Naive Bayes

Menurut Han dan Kamber (2012), metode Klasifikasi Bayesian atau yang sering

disebut Naive Bayes Classifier merupakan metode pengklasifikasian secara

statistika yang memprediksi peluang anggota kelas tertentu berdasarkan database

yang memenuhi syarat keanggotaan kelas tersebut. Naive Bayes dibangun

berdasarkan Teorema Bayes.

Teorema Bayes adalah sebagai berikut :

P(Y|X) = |

(2.22)

15

Dengan,

P(Y|X) = Posterior Probability Y di dalam X

P(Y) = Prior Probability dari Y

P(X|Y) = Posterior Probability X di dalam Y

P(X) = Prior Probability dari X

Berdasarkan Teorema Bayes dan banyaknya penelitian dalam membandingkan

algoritma pengklasifikasi, sehingga ditemukanlah Klasifikasi Bayesian yang

dikenal dengan Naive Bayes Classificier dengan kinerja yang sederhana dan

mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding dengan metode

pengklasifikasi lain tak terkecuali pada database yang besar. Ciri utama klasifikasi

Naive Bayes adalah asumsi akan independensi dari masing-masing atribut

terhadap kelas yang ada, asumsi ini disebut bebas bersyarat. Rumus Naive Bayes

ditunjukan pada persamaan (2.23 ).

P(Yj|X) = ( )∏ ( | )

(2.23)

Dengan,

Probabilitas Y, P(Yj) =

(2.24)

Probabilitas X, =

(2.25)

k = atribut pada Xi

16

Untuk menghitung P(Xi|Yj) terdapat dua aturan

a. Jika data dari atribut X merupakan data kategorik maka nilai P(Xi|Yj) adalah

nilai Xi yang terdapat pada kelas Yj dibagi dengan jumlah dari nilai Yj.

P(Xi|Yj) = |

(2.26)

b. Jika data kontinou maka untuk mencari nilai P(Xi|Yj) diasumsikan mengikuti

distribusi Normal Gaussian dengan parameter mean dan standar deviasi

g (x, =

√

(2.27)

P(Xi|Yj) = g (x, (2.28)

Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai

P(Yj|X) paling besar dari setiap variabel Y.

2.9. Error Rate

Untuk mengetahui tingkat akurasi hasil klasifikasi, maka dilakukan uji ketepatan

hasil klasifikasi dengan menggunakan APER (Apparent Error Rate) atau yang

disebut juga dengan laju error. APER merupakan ukuran evaluasi dengan melihat

nilai eror dari suatu klasifikasi. Untuk menghitung nilai APER, langkah yang

harus dilakukan membentuk tabel perbandingan hasil klasifikasi berdasarkan

observasi dengan hasil klasifikasi berdasarkan prediksi suatu metode yang disebut

dengan matrik konfusi hasil klasifikasi (Prasetyo, 2012).

17

Tabel.2.1 Matrik Konfusi Hasil Klasifikasi

Fij Kelas Prediksi (Hasil Prediksi)

Kelas = 1 Kelas = 2 Kelas = 3

Kelas Asli

(Hasil

Observasi)

Kelas = 1 F11 F12 F13

Kelas = 2 F21 F22 F23

Kelas = 3 F31 F32 F33

Dengan,

F11=Jumlah alumni kelas 1 pada kelas asli dan kelas 1 pada kelas prediksi

F12 = Jumlah alumni kelas 1 pada kelas asli dan kelas 2 pada kelas prediksi

F13 = Jumlah alumni kelas 1 pada kelas asli dan kelas 3 pada kelas prediksi

Fij = Jumlah alumni kelas i pada kelas asli dan kelas j pada kelas prediksi

Selanjutnya dapat dilakukan perhitungan nilai APER dengan formulasi sebagai

berikut :

APER =

x 100% (2.29)

Dan formulasi tingkat akurasi

Tingkat Akurasi = 1- APER (2.30)

Suatu metode dikatakan memiliki tingkat akurasi yang baik jika mempunyai nilai

APER yang kecil dan tingkat akurasi yang tinggi.

18

2.10 Uji Dua Rata-Rata

Uji dua rata-rata digunakan untuk mengetahui apakah ada perbedaan penggunaan

kedua metode pengklasifikasi dengan menguji rata-rata tingkat akurasi dan tingkat

error. Hipotesis yang digunakan pada uji dua rata-rata adalah:

H0 = μ1= μ1 (tidak ada perbedaan dalam rata-rata kedua sampel)

H1 = μ1≠ μ1 (terdapat perbedaan dalam rata-rata kedua sampel)

Statistik Uji :

√ (

) (2.31)

(2.32)

Dengan,

adalah rata-rata sampel pertama.

adalah rata-rata sampel kedua.

adalah jumlah pengamatan sampel pertama.

adalah jumlah pengamatan sampel kedua.

adalah variansi (standar deviasi kuadrat) dari sampel pertama.

adalah variansi (standar deviasi kuadrat) dari sampel kedua.

III. METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian

Penelitian ini dilakukan pada semester genap tahun akademik 2016/2017,

bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan

Alam (FMIPA) Universitas Lampung (Unila).

3.2 Data Penelitian

Data yang digunakan dalam penelitian ini adalah data Tracer Study Universitas

Lampung (Unila) 2016 yang diperoleh dari UPT. Pengembangan Karir dan

Kewirausahaan Universitas Lampung. Data yang digunakan merupakan data

primer dari hasil survei terhadap alumni yang lulus pada tahun 2016, dengan

melakukan wawancara langsung melalui telepon ataupun melalui media sosial

yang dilaksanakan sejak Maret 2017. Data yang digunakan adalah alumni yang

mempunyai riwayat mencari pekerjaan, sedangkan yang tidak pernah mencari

pekerjaan sama sekali baik melanjutkan studi maupun berwirausaha tidak

dimasukan dalam objek penelitian. Software yang digunakan yaitu Rstudio

(3.3.3).

20

3.3 Variabel Penelitian

Variabel yang digunakan dalam penelitian ini terdiri atas variabel respon (Y) dan

variabel prediktor (X). Variabel respon terdiri dari 3 kategori tingkat kelancaran

alumni dalam mendapatkan pekerjaan, yaitu Y= (1) tidak lancar, Y=(2) kurang

lancar dan Y=(3) lancar. Variabel prediktor yang digunakan merupakan variabel

yang dianggap dapat mempengaruhi alumni dalam mendapatkan pekerjaan setelah

lulus.

Tabel.3.1 Variabel Prediktor

Variabel Prediktor (X) Kategori

Program Studi (X1) X1=(1) = Eksak

X1=(2) = Non Eksak

Jenjang Pendidikan (X2) X2=(1) = D3

X2=(2) = S1

IPK (X3) X3=(1) = ≤ 2.75

X3=(2) = >2.75- ≤ 3.5

X3=(3) = >3.5

Lama Study (X4) X4=(1) = ≤ 3.5 tahun ≤ 3 tahun

X4=(2) = > 3.5-4.5 tahun >3 - ≤ 4 tahun

X4=(3) = >4.5 tahun >4 tahun

Cara Mencari Pekerjaan

(X5)

X5=(1) = Melalui Media

X5=(2) = Secara Mandiri

X5=(3) = Relasi

Penguasaan

Pengetahuan diluar

Program studi (X6)

X6=(1) = Sangat Tidak Menguasai

X6=(2) = Tidak Menguasai

X6=(3) = Cukup Menguasai

X6=(4) = Menguasai

X6=(5) = Sangat Menguasai

21

3.4 Metode Penelitian

Langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut:

1. Menentukan klasifikasi awal

Pada studi kasus klasifikasi tingkat kelancaran alumni dalam mendapatkan

pekerjaan dapat dibuat klasifikasi awal dengan indikator waktu yang

diperlukan untuk mendapatkan pekerjaan pertama :

Tabel.2.2. Variabel Respon

Variabel Respon (Y) Kriteria

Tidak Lancar = 1 Mendapatkan pekerjaan

dalam waktu > 12 bulan

setelah wisuda

Kurang Lancar = 2 Mendapatkan pekerjaan

dalaam waktu > 6 bulan -12

bulan setelah wisuda

Lancar= 3 Mendapatkan pekerjaan

dalam ≤ 6 setelah wisudah

2. Membagi data menjadi dua, yaitui data training 75% dan data testing 25%,

kemudian dilakukan sepuluh kali pengacakan dalam memilih data training

dan data testing, dengan proporsi yang sama .

3. Membuat model regresi logistik ordinal

a. Membentuk model awal regresi logistik ordinal dengan menggunakan

data training.

22

b. Menguji signifikansi parameter secara keseluruhan dengan menggunakan

Uji Ratio Likelihood.

c. Menguji parameter secara parsial dengan Uji Wald. Pengujian ini

dilakukan untuk mengetahui variabel-variabel prediktor mempengaruhi

variabel respon secara individu.

d. Pembentukan model akhir regresi logistik ordinal

e. Menentukan klasifikasi data testing menggunakan model akhir. Dalam

regresi logistik ordinal kelas hasil prediksi adalah kelas yang memiliki

nilai peluang paling tinggi.

f. Menghitung nilai APER dan akurasi dari model yang terbentuk.

4. Naive Bayes

Adapun tahapan klasifikasi Naive Bayes sebagai berikut :

a. Menghitung probabilitas awal (prior probability) peluang P(Y) dan P(X)

serta nilai probailitas Xi bersyarat Yj P(Xi|Yj) dengan data training.

b. Menentukan hasil Klasifikasi Naive Bayes hasil klasifikasi dengan melihat

nilai P(Yj|X) paling besar dari setiap variabel Y dan data yang digunakan

adalah data testing.

c. Menghitung nilai APER dan akurasi dari model yang terbentuk.

5. Menghitung rata-rata tingkat akurasi dan tingkat error dan menguji dua rata-

rata tingkat akurasi dan tingkat error kedua metode tersebut .

23

3.5 Diagram Alir

Gambar.3.1. Diagram Alir Regresi Logistik Ordinal

Mulai

Membagi data menjadi data training dan data

testing sebanyak 10 kali

Membentuk model awal dengan data training

Uji signifikansi model secara keseluruhan dengan

likelihood ratio test

Apakah model valid

?

Tidak

Ya

Melakukan klasifikasi menggunakan data testing

berdasarkan model akhir

Menghitung nilai APER dan akurasi dari model Regresi

Logistik Ordinal

Selesai

24

Gambar.3.2. Diagram Alir Klasifikasi Naive Bayes

Mulai

Membagi data menjadi data training dan data

testing sebanyak 10 kali

Menghitung probabilitas awal Y P(Y)

Menghitung nilai probabilitas posterior P(Xi|Yj)

Menentukan klasifikasi dari peluang prior dan

peluang posterior

Menghitung nilai APER dan akurasi dari metode Naive

Bayes

Selesai

V. KESIMPULAN

Berdasarkan hasil dan pembahasan, dapat disimpulkan beberapa hal sebagai

berikut :

1. Setelah dilakukan pengulangan klasifikasi sebanyak sepuluh kali metode

Regresi Logistik Ordinal menghasilkan rata-rata tingkat error sebesar 0.36086

dan rata-rata tingkat akurasi sebesar 0.63931, sedangkan Naive Bayes

menghasilkan rata-rata tingkat error sebesar 0.37866 dan rata-rata tingkat

akurasi sebesar 0.622113 dalam mengklasifikasi tingkat kelancaran alumni

Unila tahun 2016 dalam mencari pekerjaan.

2. Hasil dari uji dua rata-rata menunjukan tidak ada perbedaan yang signifikan

terhadap penggunaan metode Regresi Logistik Ordinal dan Naive Bayes

dalam mengklasifikasi tingkat kelancaran alumni Unila tahun 2016 dalam

mencari pekerjaan.

DAFTAR PUSTAKA

Agresti, Alan. 2002. An Introduction Categorical Data Analysis, Second Edition.

New Jersey : John Wiley and Sons Inc.

Han,J., Kamber, M., Jian,P., 2012. Data Mining Concepts and Techniques, Third

Edition. California : Morgan Kaufman.

Hosmer, D.W., Lemeshow, S., 2000. Applied Logistic Regression, Second

Edition. Canada : John Wiley and Sons Inc.

Nugraha, J. 2014. Pengantar Analisis Data Kategorik, Metode dan Aplikasi

Menggunakan Program R. Yogyakarta. Deepublish.

Prasetyo, E. 2012. DATA MINING – Konsep dan Aplikasi Menggunakan

MATLAB. Yogyakarta : ANDI.

Syafiq,A. dan Fikawati,S. 2016. Metodologi dan Manajemen Tracer Study.

Jakarta : P.T Raja Grafindo Persada.

Witten, I.H. and Frank, E. 2005. Data Mining Practical Machine Learning Tools

and Teachniques, Second Edition. California : Morgan Kaufman.

analisis klasifikasi menggunakan metode regresi …digilib.unila.ac.id/29829/2/skripsi tanpa bab...

Documents