analisis klasifikasi menggunakan metode regresi …digilib.unila.ac.id/29829/2/skripsi tanpa bab...
TRANSCRIPT
ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI
LOGISTIK ORDINAL DAN KLASIFIKASI NAÏVE BAYES PADA DATA
ALUMNI UNILA TAHUN 2016
(Skripsi)
Oleh
SHINTIA FARAMUDHITA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2018
ABSTRACT
ANALYSIS OF CLASSIFICATION USING ORDINAL LOGISTIC
REGRESSION AND NAIVE BAYES CLASSIFIER ON ALUMNI UNILA
DATA IN 2016
By
Shintia Faramudhita
Classification is a form of data analysis that seeks a set of patterns, models or
functions which describe and distinguish data objects to be grouped into specific
classes of available classes. In this research will be classified alumni Unila in the
classes Not Well, Less Smoothly and Smooth in finding job. The analytical method
used is Ordinal Logistic Regression which is a classifier method with statistical
techniques and Naϊve Bayes which is a classifier method by combining statistical
techniques and data mining. This study aims to determine which method has a
better accuracy rate in classify the smoothness of alumni Unila 2016 in finding
job. By performing ten repetitions of each method, obtained that Ordinal Logistic
Regression has an average error rate smaller than Naϊve Bayes, but in the two-
Means test there is no significant difference of both methods in classifying the
level of smoothness of alumni Unila 2016 in finding job.
Key Word : Classification, Ordinal Logistic Regression, Naϊve Bayes Classifier
ABSTRAK
ANALISIS KLASIFIKASI MENGGUNAKAN REGRESI
LOGISTIK ORDINAL DAN KLASIFIKASI NAÏVE BAYES PADA
DATA ALUMNI UNILA TAHUN 2016
Oleh
Shintia Faramudhita
Klasifikasi adalah bentuk analisis data yang mencari sekumpulan pola, model
atau fungsi yang menggambarkan dan membedakan objek data untuk
dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia. Pada
penelitian ini akan dilakukan klasifikasi tingkat kelancaran alumni unila tahun
2016 yang dibagi menjadi tiga kelas bertingkat, yaitu kelas Tidak Lancar (TL),
kelas Kurang Lancar (KL) dan kelas Lancar (L). Metode analisis yang digunakan
adalah Regresi Logistik Ordinal yang merupakan metode pengklasifikasi dengan
teknik statistika dan Naϊve Bayes yang merupakan metode pengklasifikasi dengan
menggabungkan teknik statistika dan data mining. Penelitian ini bertujuan untuk
mengetahui metode mana yang mempunyai tingkat akurasi yang lebih baik dalam
mengkalsifikasi tingkat kelancaran alumni unila tahun 2016 dalam mencari
pekerjaan. Dengan melakukan sepuluh kali pengulangan klasifikasi dari masing-
masing metode, didapat bahwa Regresi Logistik Ordinal mempunyai rata-rata
tingkat error yang lebih kecil dibandingkan Naϊve Bayes akan tetapi pada
pengujian dua rata-rata tidak ada perbedaan secara signifikan penggunaan
kedua metode dalam mengklasifikasi tingkat kelancaran alumni Unila tahun 2016
dalam mencari pekerjaan.
Kata Kunci : Klasifikasi, Regresi Logistik Ordinal, Klasifikasi Naϊve Bayes
ANALISIS KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK ORDINAL
DAN KLASIFIKASI NAÏVE BAYES PADA DATA ALUMNI UNILA TAHUN 2016
Oleh
SHINTIA FARAMUDHITA
Skripsi
Sebagai Salah Satu Syarat untuk Memperoleh Gelar
SARJANA SAINS
Pada
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS LAMPUNG
BANDAR LAMPUNG
2018
RIWAYAT HIDUP
Penulis dilahirkan di Rantau Kadam pada tanggal 12 Februari 1996. Penulis
merupakan anak pertama dari pasangan Bapak Seiswoyo dan Ibu Jamilatul Auda,
serta kakak dari Freby Raka Mura dan Adelia Ilmianti.
Penulis memulai pendidikan dari sekolah dasar di SD Negeri 2 Rantau Kadam pada
tahun 2001. Pendidikan sekolah menengah pertama di SMP Negeri 1 Karang Dapo
pada tahun 2007. Pendidikan sekolah menengah atas di SMA Negeri 1 Lubuklinggau
pada tahun 2011.
Penulis melanjutkan pendidikan di perguruan tinggi dan terdaftar sebagai mahasiswa
Jurusan Matematika dan Ilmu Pengetahuan Alam Universitas Lampung melalui jalur
SBMPTN pada tahun 2013. Pada periode tahun 2014/2015 penulis trdaftar menjadi
anggota bidang Kesekretariatan Himpunan Mahasiswa Matematika Unila dan
anggota biro Sirkulasi dan Periklanan UKMF Natural FMIPA Unila dan sebagai
Pimpinan Penelitian Pengembangan dan Kesekretariatan (Litbangkes) UKMF
Natural FMIPA Unila tahun 2015/2016.
Sebagai bentuk aplikasi bidang ilmu kepada masyarakat, penulis telah menyelesaikan
Kerja Praktik (KP) di Badan Pusat Statitik Kota Bandar Lampung selama kurang
lebih satu bulan. Penulis juga telah melakukan Kuliah Kerja Nyata Tematik (KKN-
Tematik) pada tahun 2016 selama 30 hari di Desa Payung Makmur, Kec. Pubian,
Kab. Lampung Tengah.
PERSEMBAHAN
Puji dan syukur kepada Allah SWT berkat rahmat dan hidayah-Nya
sebuah karya sederhana namun penuh perjuangan telah terselesaikan
Kupersembahkan Skripsi ini untuk :
Kedua orang tuaku tercinta
Ayahanda Seiswoyo & Ibunda Jamilatul Auda
Serta
Adik-Adiku
Freby Raka Mura & Adelia Ilmianti
Terimakasih atas jasa-jasa yang tak bisa ternilai harganya Terimakasih atas setiap doa tulus yang kalian panjatkan
Terimakasih atas cinta dan kasih sayang yang kalian berikan
SANWACANA
Puji syukur kehadirat Allah SWT berkat rahmat dan hidayahnya, sehingga penulis
dapat menyelesaikan skripsi ini dengan baik. Shalawat serta salam senantiasa tercurah
kepada junjungan kita Nabi Muhammad SAW, suri tauladan terbaik sepanjang masa.
Pada proses penyusunan skripsi, penulis memperoleh banyak bantuan, dukungan,
bimbingan serta kritik dan saran yang membangun sehingga skripsi ini mampu
terselesaikan. Oleh karena itu, dalam kesempatan ini penulis ingin mengucapkan
terima kasih kepada :
1. Bapak Drs. Rudi Ruswandi, M.Si.,selaku dosen pembimbing utama yang telah
membimbing penulis dengan setulus hati, menyumbangkan ilmunya,
memberikan motivasi serta telah banyak meluangkan waktu ditengah
kesibukannya untuk membimbing hingga skripsi ini terselesaikan.
2. Bapak Subian Saidi, S.Si., M.Si., selaku dosen pembimbing pembantu yang telah
banyak membantu, memberi masukan serta dengan sabar memberikan
pengarahan dalam proses penyusunan skripsi ini.
3. Ibu Dian Kurniasari, S.Si., M.Sc., selaku dosen penguji yang telah memberikan
kritik dan saran yang membangun kepada penulis dalam proses penyelesaian
skripsi ini.
4. Ibu Widiarti, M.Si., selaku Pembimbing Akademik.
5. Ibu Dra. Wamiliana, M.A.,Ph.D., selaku Ketua Jurusan Matematika FMIPA
Universitas Lampung.
6. Bapak Prof. Warsito, S.Si., D.E.A, Ph.D selaku dekan FMIPA Universitas
Lampung.
7. Dosen, staf dan karyawan Jurusan Matematika FMIPA UNILA yang telah
memberikan ilmu pengetahuan dan segala bentuk bantuan kepada penulis.
8. Orang tuaku tercinta dan adik-adiku tersayang Freby dan Ilmia, serta seluruh
keluarga yang senantiasa memberikan kasih sayang yang tiada terkira, selalu
menjadi penyemangat dan selalu memotivasi penulis untuk memberikan yang
terbaik, serta tak henti-hentinya mendoakan untuk keberhasilan penulis.
9. Teman-teman terbaik di kampus, Suci, Karina, Suri, Maimuri, Citra, Eka, Siti,
Retno, Della, Tiwi, Yucky, yang telah banyak membantu, memberikan
perhatian dan dukungan kepada penulis.
10. Teman-teman satu bimbingan Aiman, Cinkia, Ratna, Vinny dan Citra yang selalu
membantu penulis, berjuang bersama serta saling mendukung dalam
menyelesaikan skripsi ini.
11. Keluarga besar Natural FMIPA terima kasih atas pengalaman yang luar biasa.
12. Teman-teman seperjuangan Matematika 2013 yang tidak bisa penulis
sebutkan satu persatu.
13. Seluruh pihak yang telah membantu penulis yang tidak dapat disebutkan satu
persatu atas peran dan dukungannya dalam menyusun skripsi ini.
Bandar lampung, Januari 2018
Penulis,
Shintia Faramudhita
DAFTAR ISI
Halaman
DAFTAR TABEL
DAFTAR GAMBAR
I. PENDAHULUAN
1.1 Latar Belakang ........................................................................................ 1
1.2 Tujuan Penelitian ..................................................................................... 3
1.3 Manfaat Penelitian ................................................................................... 3
II. TINJAUAN PUSTAKA
2.1 Konsep Klasifikasi ................................................................................... 4
2.2 Tracer Study ........................................................................................... 4
2.3 Data Mining ............................................................................................. 5
2.4 Skala Pengukuran Variabel Kategorik ................................................... 6
2.5 Variabel Dependen dan Variabel Independen ........................................ 6
2.6 Regresi Logistik ...................................................................................... 7
2.7 Regresi Logistik Ordinal ......................................................................... 8
2.7.1 Maksimum Likelihood Estimation .............................................. 9
2.7.2 Uji Ratio Likelihood .................................................................. 13
2.7.3 Uji Wald ..................................................................................... 14
2.8 Klasifikasi Naive Bayes......................................................................... 14
2.9 Error Rate .............................................................................................. 16
2.10 Uji Dua Rata-Rata ................................................................................. 18
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian ............................................................... 19
3.2 Data Penelitian ....................................................................................... 19
3.3 Variabel Penelitian ................................................................................ 20
3.4 Metode Penelitian .................................................................................. 21
3.5 Diagram Alir .......................................................................................... 23
IV. HASIL DAN PEMBAHASAN
4.1 Deskripsi Data ....................................................................................... 25
4.1.1 Deskripsi Data Berdasarkan Program Studi ................................. 27
4.1.2 Deskripsi Data Berdasarkan Jenjang Pendidikan ......................... 27
4.1.3 Deskripsi Data Berdasarkan IPK ................................................. 28
4.1.4 Deskripsi Data Berdasarkan Lama Studi ..................................... 28
4.1.5 Deskripsi Data Berdasarkan Cara Mencari Pekerjaan ................. 29
4.1.6 Deskripsi Data Berdasarkan Penguasaan Pengetahuan Diluar
Bidang Studi ............................................................................... 30
4.2 Regresi Logistik Ordinal ....................................................................... 31
4.2.1 Model Awal Regresi Logistik Ordinal ......................................... 31
4.2.2 Model Akhir Regresi Logistik Ordinal ........................................ 34
4.3 Klasifikasi Naive Bayes......................................................................... 37
4.4 Rata-Rata Tingkat Akurasi dan Rata-Rata Tingkat Error ..................... 42
4.5 Uji Dua Rata-Rata ................................................................................. 43
V. KESIMPULAN
DAFTAR PUSTAKA
LAMPIRAN
DAFTAR TABEL
DAFTAR GAMBAR
I. PENDAHULUAN
1.1 Latar Belakang
Menurut Han dan Kamber (2012), klasifikasi adalah bentuk analisis data mencari
sekumpulan model, pola atau fungsi yang menggambarkan dan membedakan objek
data untuk dikelompokan kedalam kelas tertentu dari sejumlah kelas yang tersedia.
Dalam klasifikasi terdapat tiga tahapan utama, yaitu (1) identifikasi atau
pembentukan model berdasarkan data training, (2) evaluasi model dan (3) penerapan
model dengan menggunakan data testing. Variabel yang digunakan dalam klasifikasi
terdiri dari variabel prediktor yang merupakan faktor-faktor yang mempengaruhi atau
dapat menggambarkan variabel respon. Dalam hal ini variabel respon berupa variabel
kategorik baik yang mempunyai pengurutan dalam penomoran (ordinal) maupun
tidak (nominal).
Beberapa metode statistika yang dapat digunakan dalam klasifikasi melalui analisis
data kategorik, yaitu Regresi Logistik Biner, Regresi Logistik Multinomial, Regresi
Logistik Ordinal dan Model Log Linier. Pada penelitian ini data yang digunakan
adalah klasifikasi tingkat kelancaran alumni Universitas Lampung (Unila) tahun
2016 dalam mendapatkan pekerjaan. Klasifikasi alumni dibagi menjadi kelompok
2
tidak lancar, kelompok kurang lancar dan kelompok lancar berdasarkan lamanya
waktu yang dibutuhkan untuk mendapatkan pekerjaan . Variabel respon yang
digunakan berbentuk kategorik bertingkat atau ordinal. Sehingga metode yang dapat
digunakan adalah Regresi Logistik Ordinal.
Metode pengklasifikasi lain yang dapat digunakan adalah Klasifikasi Naϊve Bayes.
Naϊve Bayes merupakan metode penggolongan berdasarkan probabilitas sederhana
dan dirancang untuk dipergunakan dengan asumsi bahwa antar satu kelas dengan
kelas yang lain tidak saling tergantung (independen) meskipun asumsi ini tidak
terpenuhi, dalam prakteknya masih berfungsi dengan baik. Naϊve Bayes merupakan
gabungan dari teknik statistika yang didasari oleh Teorema Bayes dan data mining
yang mampu memberikan informasi berguna tentang teknik klasifikasi untuk
menentukan alumni Unila akan bergabung dengan kelompok mana dalam mencari
pekerjaan.
Karena kedua metode klasifikasi diatas memiliki perbedaan, dimana Regresi Logistik
Ordinal merupakan metode klasifikasi yang menggunakan teknik statistika,
sedangkan Naϊve Bayes adalah metode klasifikasi yang menggabungkan teknik
statistika dengan data mining. Sehingga menarik untuk mengkaji perbandingan hasil
klasifikasi dari kedua metode tersebut berdasarkan tingkat akurasi yang lebih baik.
Akan tetapi, penelitian ini hanya dikhususkan untuk pengklasifikasian data Alumni
Unila tahun 2016.
3
1.2 Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah :
1. Menghitung rata-rata tingkat akurasi dan tingkat error metode Regresi Logistik
Ordinal dan Naive Bayes dalam mengklasifikasi tingkat kelancaran alumni Unila
tahun 2016 dalam mencari pekerjaan.
2. Menguji perbandingan rata-rata tingkat akurasi dan tingkat error metode Regresi
Logistik Ordinal dan Naive Bayes dalam mengklasifikasi tingkat kelancaran
alumni Unila tahun 2016 dalam mencari pekerjaan
1.3 Manfaat penelitian
Adapun manfaat penelitian ini adalah :
1. Untuk mengetahui rata-rata tingkat akurasi dan tingkat error metode Regresi
Logistik Ordinal dan Naive Bayes dalam klasifikasi tingkat kelancaran alumni
Unila Tahun 2016 dalam mencari pekerjaan.
2. Dapat melihat perbandingan rata-rata tingkat akurasi dan tingkat error metode
Regresi Logistik Ordinal dan Naϊve Bayes dalam klasifikasi tingkat kelancaran
alumni Unila Tahun 2016 dalam mencari pekerjaan.
II. TINJAUAN PUSTAKA
2.1. Konsep Klasifikasi
Menurut Prasetyo (2012), klasifikasi merupakan kegiatan menilai objek data
untuk memasukkanya ke dalam kelas tertentu dari sejumlah kelas yang tersedia.
Dalam klasifikasi terdapat dua pekerjaan utama yang dilakukan, yaitu (1)
pembangunan model sebagai prototipe untuk disimpan sebagai memori dan (2)
penggunaan model tersebut untuk melakukan pengenalan, klasifikasi, prediksi
pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam
model yang sudah disimpan.
2.2. Tracer Study
Tracer Study adalah kegiatan penelusuran alumni yang bertujuan untuk
mengetahui kegiatan alumni setelah lulus dari perguruan tinggi, transisi dari dunia
pendidikan ke dunia kerja, situasi kerja, penguasaan kompetensi dan penggunaan
kompetensi dalam dunia kerja. Responden pada penyelenggaraan tracer study
adalah alumni yang telah lulus 1-2 tahun sebelum pelaksanaan tracer study
(Syafiq dan Fikawati, 2016).
5
2.3. Data Mining
Menurut Han dan Kamber (2012), data mining adalah suatu proses menemukan
pola dan mengidentifikasi sekumpulan informasi dari penyimpanan data
(database) dengan menggunakan teknik statistik, matematika, kecerdasan buatan
dan machine learning. Sedangkan menurut Witten dan Frank (2005) data mining
adalah proses mengekstraksi informasi yang berguna dari suatu database untuk
menganalisis struktural pola data tersebut yang dapat dijadikan bahan interpretasi
data dan pembentukan model prediksi dari data tersebut.
Berdasarkan definisi di atas dapat disimpulkan bahwa data mining adalah suatu
proses mengekstrasi dan identifikasi dari database dengan menggunakan teknik
statistika, matematika, kecerdasan buatan dan machine learning yang dapat
menjelaskan pola data dan membuat model prediksi dari data tersebut.
Database yang akan digunakan dalam data mining dibagi menjadi dua yaitu data
training dan data testing. Data training adalah data yang digunakan untuk
menghasilkan model klasifikasi. Sedangkan data testing adalah data yang
digunakan untuk mengevaluasi model. Untuk menentukan banyak komposisi data
training dan data testing digunakan Teknik Cross-Validation atau yang sering
disebut estimasi rotasi. Dalam cross-validation proporsi data training dan data
testing tergantung pada analisis misalnya data dibagi menjadi 50% : 50% atau 2/3
untuk training dan 1/3 untuk testing. 2:1 (Han dan Kamber (2012) .
6
Gambar 2.1. Proses Pekerjaan Klasifikasi
2.4. Skala Pengukuran Variabel Kategorik
data kategorik mempunyai dua jenis skala pengukuran, yaitu skala nominal dan
skala ordinal. Skala nominal adalah skala yang tidak mempunyai urutan dalam
penomoranya (contoh : islam, kristen, hindu, budha). Sedangkan skala ordinal
adalah skala yang mempunyai urutan dalam penomoranya (contoh: sangat baik,
baik, cukup baik, kurang baik), baik itu dari urutan terkecil ke terbesar ataupun
sebaliknya (Agresti, 2002),
2.5. Variabel Dependen dan Variabel Independen
Menurut Nugraha (2014), dalam permodelan statistik (analisis independensi)
muncul istilah variabel independen (X) dan variabel dependen (Y). Suatu variabel
dikatakan variabel dependen jika nilainya di pengaruhi variabel lain yaitu variabel
independen. Dalam analisis data kategorik, variabel dependen berupa data
kategorik, sedangkan variabel independen dapat berupa data kontinu (ratio dan
interval) atau data diskrit (ordinal dan nominal) .
Data
Input Data
Training
Input Data
Testing
Pembentukan
Model
Penerapan
Model
Output
Data
Testing
7
2.6. Regresi Logistik
Regresi Logistik adalah model regresi nonlinier yang digunakan untuk
menganalisis pola hubungan antara sekumpulan variabel independen (X) dengan
variabel dependen (Y) bertipe kategorik atau kualitatif. Kategori dari variabel
dependen dapat terdiri atas dua kemungkinan nilai (dichotomous), seperti ya/tidak
sukses/gagal dan lain-lain, atau lebih dari dua kemungkinan (polychotomous),
seperti sangat tidak setuju, tidak setuju dan setuju.
Terdapat dua alasan utama untuk memilih Regresi Logistik dalam menganalisis
data kategorik, yaitu (1) dari sudut pandang matematika fungsi yang digunakan
lebih mudah dan lebih fleksibel (2) parameter yang dihasilkan secara terperinci
dapat digunakan dalam analisis yang mendalam. Regresi Logistik muncul karena
ketidakmampuan dari model regresi linier untuk
memprediksi nilai Y yang lebih dari satu, Regresi Logistik mempunyai variabel
respon Y dan X variabel prediktor, dimisalkan π(x) = P(Y=jlXi) dengan i = 1,2, ..
i. Bentuk spesifik model regresi logistik adalah :
π(x)
(Hosmer & Lemeshow, 2000) (2.1)
Persamaan (2.1) memperlihatkan bahwa ketika x → ∞, π(x) ↓ 0 jika β<0 dan π(x)
↑ 0 jika β>0.
8
2.7. Regresi Logistik Ordinal
Regresi Logistik Ordinal merupakan salah satu metode statistika untuk
menganalisis variabel respon yang mempunyai skala data ordinal yang memiliki
tiga kategori atau lebih. Sedangkan variabel prediktor yang digunakan berupa data
katgorik dan atau kuantitatif. Pada regresi logistik ordinal model berupa Model
Logit Kumulatif (Cumulative Logit Models).
Model logit kumulatif ini diperoleh dengan membandingkan peluang kumulatif
yaitu peluang kurang dari atau sama dengan kategori respon ke-j pada i variabel
prediktor yang dinyatakan dalam vektor xi adalah P(Y≤ j |Xi), dengan peluang
lebih dari kategori respon ke-j pada i variabel prediktor vektor Xi P(Y>j|Xi).
Peluang kumulatif P(Y≤ j|Xi) didefinisikan sebagai berikut :
P(Y≤ j |Xi) = π(x) =
=
∑
∑
(2.2)
Model logit kumulatif didefinisikan dengan :
gj(x) = ln[
= ln[
(
)
]
= ln (
= - (2.3)
Dimana, j adalah jumlah kategori variabel respon j = 1, 2, ..., J dan i adalah
jumlah variabel prediktor. Jika terdapat kategori respon dimana j=1,2,3,..,J maka
9
nilai peluang untuk tiap kategori respon dapat dihitung dengan menggunakan
persamaan dibawah ini :
Φj(x) = {
(2.4)
Untuk menentukan kelas dari suatu objek dapat dilihat dari nilai peluang kategori
yang paling besar.
2.7.1 Maksimum Likelihood Estimation
Metode nilai kemungkinan maksimum (Maximum Likelihood Estimator)
merupakan metode yang digunakan untuk menduga parameter-parameter model
regresi logistik dengan memberikan nilai estimasi dengan memaksimumkan
fungsi Likelihood . Fungsi kumulatif peluang bersama dari Y=( Y1, Y2, ..., Yn) di
notasikan dengan f(y|β). Fungsi likelihood merupakan product dari f(y|β), berikut
bentuk umum dari fungsi Likelihood untuk regresi logistik ordinal .
l(β) = ∏
] (2.5)
Dengan yj =
Dari persamaan di atas didapatkan fungsi ln- Likelihood sebagai berikut
L(β)= ln l(β) = ∑ ln[ + ln[ }
= ∑ *
+ [
( )( )]
ln*
+} (2.6)
(Hosmer & Lemeshow, 2000)
10
Maksimum ln-Likelihood diperoleh dengan mendeferensialkan L(β) terhadap
parameternya kemudian hasil dari turunan tersebut dibuat sama dengan nol.
=
∑
( ∑
)( ∑
)
( ∑ )( )
(2.7)
=
( ∑
)( ∑
)
( ∑ )( )
( ∑
)
( ∑ )
(2.8)
= 0 (2.9)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.10)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.11)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.12)
11
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.13)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.14)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.15)
=
∑
+ ( ∑
)( ∑
∑
)
( ∑ )( )( ∑
)
+ ( ∑
)
( ∑ )
(2.16)
12
Pada saat diferensial pertama dalam suatu parameter masih mengandung
parameter lain, maka mendapatkan nilai pendugaan parameter dari fungsi ln-
likelihood pada regresi logistik ordinal dilakukan metode iterasi Newton Raphson.
Newton Raphson adalah metode iterasi untuk menyelesaikan persamaan nonlinier.
Berikut cara kerja Newton Raphson dalam menentukan nilai berdasarkan fungsi
L(β) yang telah dimaximumkan, Persamaan Newton Rapshon sebagai berikut :
(2.17)
Dengan :
= [
]
= [
]
=
[
]
=
[
]
Matriks Hessian adalah matrik yang mempunyai elemen-elemen ha,b yang
merupakan turunan kedua dari fungsi ln-likelihood terhadap semua parameter
( Agresti, 2002).
13
2.7.2 Uji Ratio Likelihood
Uji Ratio Likelihood dilakukan untuk menguji kesesuain model dengan variabel-
variabel prediktor secara keseluruhan (Hosmer & Lemeshow, 2000).
Adapun hipotesis yang digunakan dalam uji ratio likelihood
H0 : β1 = β2 = … = βp = 0
H1 : paling sedikit salah satu dari βr ≠ 0 dengan r = 1,2,…,p
Dengan statistik uji
G = -2 log (
) (2.18)
G = -2 ln (
)
(
)
∏
(2.19)
G = 2 {∑ ) + (1- ) ln(1- )]-[n1 ln(n1) + n0 ln(n0) - n ln(n)]} (2.20)
Dengan :
n1 = banyaknya observasi berkategori 1
n0 = banyaknya observasi berkategori 0
n = banyaknya observasi (n1+ n0)
Statistik uji G mengikuti distribusi chi-square. Sehingga untuk mengambil
keputusan dilakukan perbandingan dengan χ2 tabel. Kriteria penolakan tolak H0
jika χ
2 hit >
χ
2(db,a)
14
2.7.3 Uji Wald
Uji Wald dilakukan untuk mengetahui variabel-variabel prediktor mempengaruhi
variabel respon secara individu dengan kata lain apakah suatu variabel prediktor
layak dimasukan kedalam model . Hipotesis yang digunakan dalam uji wald :
H0 : βi = 0;
H1 : βi ≠ 0, dengan i = 1,2,…,n
Dengan statistik uji
Wi =
]2
(2.21)
Statistik uji Wi mengikuti sebaran normal baku. Sehingga untuk memperoleh
keputusan dilakukan perbandingan dengan distribusi normal baku (Z). Dengan
kriteria pengambilan keputusan tolak H0 Jika Wi > Zα/2.
2.8. Klasifikasi Naive Bayes
Menurut Han dan Kamber (2012), metode Klasifikasi Bayesian atau yang sering
disebut Naive Bayes Classifier merupakan metode pengklasifikasian secara
statistika yang memprediksi peluang anggota kelas tertentu berdasarkan database
yang memenuhi syarat keanggotaan kelas tersebut. Naive Bayes dibangun
berdasarkan Teorema Bayes.
Teorema Bayes adalah sebagai berikut :
P(Y|X) = |
(2.22)
15
Dengan,
P(Y|X) = Posterior Probability Y di dalam X
P(Y) = Prior Probability dari Y
P(X|Y) = Posterior Probability X di dalam Y
P(X) = Prior Probability dari X
Berdasarkan Teorema Bayes dan banyaknya penelitian dalam membandingkan
algoritma pengklasifikasi, sehingga ditemukanlah Klasifikasi Bayesian yang
dikenal dengan Naive Bayes Classificier dengan kinerja yang sederhana dan
mempunyai kecepatan serta tingkat akurasi yang tinggi sebanding dengan metode
pengklasifikasi lain tak terkecuali pada database yang besar. Ciri utama klasifikasi
Naive Bayes adalah asumsi akan independensi dari masing-masing atribut
terhadap kelas yang ada, asumsi ini disebut bebas bersyarat. Rumus Naive Bayes
ditunjukan pada persamaan (2.23 ).
P(Yj|X) = ( )∏ ( | )
(2.23)
Dengan,
Probabilitas Y, P(Yj) =
(2.24)
Probabilitas X, =
(2.25)
k = atribut pada Xi
16
Untuk menghitung P(Xi|Yj) terdapat dua aturan
a. Jika data dari atribut X merupakan data kategorik maka nilai P(Xi|Yj) adalah
nilai Xi yang terdapat pada kelas Yj dibagi dengan jumlah dari nilai Yj.
P(Xi|Yj) = |
(2.26)
b. Jika data kontinou maka untuk mencari nilai P(Xi|Yj) diasumsikan mengikuti
distribusi Normal Gaussian dengan parameter mean dan standar deviasi
g (x, =
√
(2.27)
P(Xi|Yj) = g (x, (2.28)
Pada Klasifikasi Naive Bayes hasil klasifikasi ditentukan dengan melihat nilai
P(Yj|X) paling besar dari setiap variabel Y.
2.9. Error Rate
Untuk mengetahui tingkat akurasi hasil klasifikasi, maka dilakukan uji ketepatan
hasil klasifikasi dengan menggunakan APER (Apparent Error Rate) atau yang
disebut juga dengan laju error. APER merupakan ukuran evaluasi dengan melihat
nilai eror dari suatu klasifikasi. Untuk menghitung nilai APER, langkah yang
harus dilakukan membentuk tabel perbandingan hasil klasifikasi berdasarkan
observasi dengan hasil klasifikasi berdasarkan prediksi suatu metode yang disebut
dengan matrik konfusi hasil klasifikasi (Prasetyo, 2012).
17
Tabel.2.1 Matrik Konfusi Hasil Klasifikasi
Fij Kelas Prediksi (Hasil Prediksi)
Kelas = 1 Kelas = 2 Kelas = 3
Kelas Asli
(Hasil
Observasi)
Kelas = 1 F11 F12 F13
Kelas = 2 F21 F22 F23
Kelas = 3 F31 F32 F33
Dengan,
F11=Jumlah alumni kelas 1 pada kelas asli dan kelas 1 pada kelas prediksi
F12 = Jumlah alumni kelas 1 pada kelas asli dan kelas 2 pada kelas prediksi
F13 = Jumlah alumni kelas 1 pada kelas asli dan kelas 3 pada kelas prediksi
Fij = Jumlah alumni kelas i pada kelas asli dan kelas j pada kelas prediksi
Selanjutnya dapat dilakukan perhitungan nilai APER dengan formulasi sebagai
berikut :
APER =
x 100% (2.29)
Dan formulasi tingkat akurasi
Tingkat Akurasi = 1- APER (2.30)
Suatu metode dikatakan memiliki tingkat akurasi yang baik jika mempunyai nilai
APER yang kecil dan tingkat akurasi yang tinggi.
18
2.10 Uji Dua Rata-Rata
Uji dua rata-rata digunakan untuk mengetahui apakah ada perbedaan penggunaan
kedua metode pengklasifikasi dengan menguji rata-rata tingkat akurasi dan tingkat
error. Hipotesis yang digunakan pada uji dua rata-rata adalah:
H0 = μ1= μ1 (tidak ada perbedaan dalam rata-rata kedua sampel)
H1 = μ1≠ μ1 (terdapat perbedaan dalam rata-rata kedua sampel)
Statistik Uji :
√ (
) (2.31)
(2.32)
Dengan,
adalah rata-rata sampel pertama.
adalah rata-rata sampel kedua.
adalah jumlah pengamatan sampel pertama.
adalah jumlah pengamatan sampel kedua.
adalah variansi (standar deviasi kuadrat) dari sampel pertama.
adalah variansi (standar deviasi kuadrat) dari sampel kedua.
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan pada semester genap tahun akademik 2016/2017,
bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan
Alam (FMIPA) Universitas Lampung (Unila).
3.2 Data Penelitian
Data yang digunakan dalam penelitian ini adalah data Tracer Study Universitas
Lampung (Unila) 2016 yang diperoleh dari UPT. Pengembangan Karir dan
Kewirausahaan Universitas Lampung. Data yang digunakan merupakan data
primer dari hasil survei terhadap alumni yang lulus pada tahun 2016, dengan
melakukan wawancara langsung melalui telepon ataupun melalui media sosial
yang dilaksanakan sejak Maret 2017. Data yang digunakan adalah alumni yang
mempunyai riwayat mencari pekerjaan, sedangkan yang tidak pernah mencari
pekerjaan sama sekali baik melanjutkan studi maupun berwirausaha tidak
dimasukan dalam objek penelitian. Software yang digunakan yaitu Rstudio
(3.3.3).
20
3.3 Variabel Penelitian
Variabel yang digunakan dalam penelitian ini terdiri atas variabel respon (Y) dan
variabel prediktor (X). Variabel respon terdiri dari 3 kategori tingkat kelancaran
alumni dalam mendapatkan pekerjaan, yaitu Y= (1) tidak lancar, Y=(2) kurang
lancar dan Y=(3) lancar. Variabel prediktor yang digunakan merupakan variabel
yang dianggap dapat mempengaruhi alumni dalam mendapatkan pekerjaan setelah
lulus.
Tabel.3.1 Variabel Prediktor
Variabel Prediktor (X) Kategori
Program Studi (X1) X1=(1) = Eksak
X1=(2) = Non Eksak
Jenjang Pendidikan (X2) X2=(1) = D3
X2=(2) = S1
IPK (X3) X3=(1) = ≤ 2.75
X3=(2) = >2.75- ≤ 3.5
X3=(3) = >3.5
Lama Study (X4) X4=(1) = ≤ 3.5 tahun ≤ 3 tahun
X4=(2) = > 3.5-4.5 tahun >3 - ≤ 4 tahun
X4=(3) = >4.5 tahun >4 tahun
Cara Mencari Pekerjaan
(X5)
X5=(1) = Melalui Media
X5=(2) = Secara Mandiri
X5=(3) = Relasi
Penguasaan
Pengetahuan diluar
Program studi (X6)
X6=(1) = Sangat Tidak Menguasai
X6=(2) = Tidak Menguasai
X6=(3) = Cukup Menguasai
X6=(4) = Menguasai
X6=(5) = Sangat Menguasai
21
3.4 Metode Penelitian
Langkah-langkah yang dilakukan pada penelitian ini adalah sebagai berikut:
1. Menentukan klasifikasi awal
Pada studi kasus klasifikasi tingkat kelancaran alumni dalam mendapatkan
pekerjaan dapat dibuat klasifikasi awal dengan indikator waktu yang
diperlukan untuk mendapatkan pekerjaan pertama :
Tabel.2.2. Variabel Respon
Variabel Respon (Y) Kriteria
Tidak Lancar = 1 Mendapatkan pekerjaan
dalam waktu > 12 bulan
setelah wisuda
Kurang Lancar = 2 Mendapatkan pekerjaan
dalaam waktu > 6 bulan -12
bulan setelah wisuda
Lancar= 3 Mendapatkan pekerjaan
dalam ≤ 6 setelah wisudah
2. Membagi data menjadi dua, yaitui data training 75% dan data testing 25%,
kemudian dilakukan sepuluh kali pengacakan dalam memilih data training
dan data testing, dengan proporsi yang sama .
3. Membuat model regresi logistik ordinal
a. Membentuk model awal regresi logistik ordinal dengan menggunakan
data training.
22
b. Menguji signifikansi parameter secara keseluruhan dengan menggunakan
Uji Ratio Likelihood.
c. Menguji parameter secara parsial dengan Uji Wald. Pengujian ini
dilakukan untuk mengetahui variabel-variabel prediktor mempengaruhi
variabel respon secara individu.
d. Pembentukan model akhir regresi logistik ordinal
e. Menentukan klasifikasi data testing menggunakan model akhir. Dalam
regresi logistik ordinal kelas hasil prediksi adalah kelas yang memiliki
nilai peluang paling tinggi.
f. Menghitung nilai APER dan akurasi dari model yang terbentuk.
4. Naive Bayes
Adapun tahapan klasifikasi Naive Bayes sebagai berikut :
a. Menghitung probabilitas awal (prior probability) peluang P(Y) dan P(X)
serta nilai probailitas Xi bersyarat Yj P(Xi|Yj) dengan data training.
b. Menentukan hasil Klasifikasi Naive Bayes hasil klasifikasi dengan melihat
nilai P(Yj|X) paling besar dari setiap variabel Y dan data yang digunakan
adalah data testing.
c. Menghitung nilai APER dan akurasi dari model yang terbentuk.
5. Menghitung rata-rata tingkat akurasi dan tingkat error dan menguji dua rata-
rata tingkat akurasi dan tingkat error kedua metode tersebut .
23
3.5 Diagram Alir
Gambar.3.1. Diagram Alir Regresi Logistik Ordinal
Mulai
Membagi data menjadi data training dan data
testing sebanyak 10 kali
Membentuk model awal dengan data training
Uji signifikansi model secara keseluruhan dengan
likelihood ratio test
Apakah model valid
?
Tidak
Ya
Melakukan klasifikasi menggunakan data testing
berdasarkan model akhir
Menghitung nilai APER dan akurasi dari model Regresi
Logistik Ordinal
Selesai
24
Gambar.3.2. Diagram Alir Klasifikasi Naive Bayes
Mulai
Membagi data menjadi data training dan data
testing sebanyak 10 kali
Menghitung probabilitas awal Y P(Y)
Menghitung nilai probabilitas posterior P(Xi|Yj)
Menentukan klasifikasi dari peluang prior dan
peluang posterior
Menghitung nilai APER dan akurasi dari metode Naive
Bayes
Selesai
V. KESIMPULAN
Berdasarkan hasil dan pembahasan, dapat disimpulkan beberapa hal sebagai
berikut :
1. Setelah dilakukan pengulangan klasifikasi sebanyak sepuluh kali metode
Regresi Logistik Ordinal menghasilkan rata-rata tingkat error sebesar 0.36086
dan rata-rata tingkat akurasi sebesar 0.63931, sedangkan Naive Bayes
menghasilkan rata-rata tingkat error sebesar 0.37866 dan rata-rata tingkat
akurasi sebesar 0.622113 dalam mengklasifikasi tingkat kelancaran alumni
Unila tahun 2016 dalam mencari pekerjaan.
2. Hasil dari uji dua rata-rata menunjukan tidak ada perbedaan yang signifikan
terhadap penggunaan metode Regresi Logistik Ordinal dan Naive Bayes
dalam mengklasifikasi tingkat kelancaran alumni Unila tahun 2016 dalam
mencari pekerjaan.
DAFTAR PUSTAKA
Agresti, Alan. 2002. An Introduction Categorical Data Analysis, Second Edition.
New Jersey : John Wiley and Sons Inc.
Han,J., Kamber, M., Jian,P., 2012. Data Mining Concepts and Techniques, Third
Edition. California : Morgan Kaufman.
Hosmer, D.W., Lemeshow, S., 2000. Applied Logistic Regression, Second
Edition. Canada : John Wiley and Sons Inc.
Nugraha, J. 2014. Pengantar Analisis Data Kategorik, Metode dan Aplikasi
Menggunakan Program R. Yogyakarta. Deepublish.
Prasetyo, E. 2012. DATA MINING – Konsep dan Aplikasi Menggunakan
MATLAB. Yogyakarta : ANDI.
Syafiq,A. dan Fikawati,S. 2016. Metodologi dan Manajemen Tracer Study.
Jakarta : P.T Raja Grafindo Persada.
Witten, I.H. and Frank, E. 2005. Data Mining Practical Machine Learning Tools
and Teachniques, Second Edition. California : Morgan Kaufman.