modul pertemuan 8 logistic regression dan support vector...

10
PRAKTIKUM DATA MINING KEMENTRIAN RISET, TEKNOLOGI DAN PENDIDIKAN TINGGI UNIVERSITAS ANDALAS FAKULTAS TEKNOLOGI INFORMASI JURUSAN SISTEM INFORMASI LABORATORIUM BUSINESS INTELLIGENCE Kampus Universitas Andalas, Limau Manis, Padang – 25163 MODUL PERTEMUAN 8 Logistic Regression dan Support Vector Machines A. Tujuan 1. Praktikan mampu memahami konsep Logistic Regression pada python 2. Praktikan mampu memahami konsep Support Vector Machines pada phyton A. Landasan Teori Logistic Regression - Logistic Regression merupakan salah satu teknik machine learning untuk melakukan klasifikasi record dari dataset. - Logistic Regression atau regresi logistik adalah sebuah pendekatan untuk membuat model prediksi seperti halnya regresi linear atau yang biasa disebut dengan istilah Ordinary Least Squares (OLS) regression. Perbedaannya adalah pada regresi logistik, peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik dan Buruk atau Tinggi dan Rendah.

Upload: others

Post on 29-Dec-2019

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

KEMENTRIAN RISET, TEKNOLOGI DAN PENDIDIKAN TINGGI

UNIVERSITAS ANDALAS FAKULTAS TEKNOLOGI INFORMASI

JURUSAN SISTEM INFORMASI LABORATORIUM BUSINESS INTELLIGENCE

Kampus Universitas Andalas, Limau Manis, Padang – 25163

MODUL PERTEMUAN 8

Logistic Regression dan Support Vector Machines

A. Tujuan

1. Praktikan mampu memahami konsep Logistic Regression pada python

2. Praktikan mampu memahami konsep Support Vector Machines pada phyton

A. Landasan Teori

Logistic Regression

- Logistic Regression merupakan salah satu teknik machine learning untuk melakukan

klasifikasi record dari dataset.

- Logistic Regression atau regresi logistik adalah sebuah pendekatan untuk membuat

model prediksi seperti halnya regresi linear atau yang biasa disebut dengan istilah

Ordinary Least Squares (OLS) regression. Perbedaannya adalah pada regresi logistik,

peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang

dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik

dan Buruk atau Tinggi dan Rendah.

Page 2: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Variabel yang ada pada logistic regression:

• Indepentent Variable = Variable / Fitur yang merupakan input dan akan dipakai untuk

memprediksi sebuah output, churn.

• Dependent Variable = Nilainya bergantung pada nilai-nilai input

• Pelanggan akan berhenti atau tidak bergantung dari data pelanggan tsb.

Perbedaan antara Linear Regression dengan Logistic Regression:

Linear Regression Logistic Regression

• Melakukan Prediksi

• Prediksi nilai kontinyu dari sebuah

variable, seperti:

• Harga rumah berdasarkan ciri

• Tekanan darah berdasarkan

symptom

• Konsumsi bensin berdasarkan

kondisi mobil

• Melakukan Klasifikasi

• Klasifikasi nilai biner, seperti:

• Kelompok A atau B

• Sukses atau tidak sukses

• Tetap berlangganan atau tidak.

Page 3: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

- Asumsi yang harus dipenuhi dalam Regresi Logistik antara lain:

1. Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan

variabel terikat.

2. Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non

linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik

sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat

bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian

Nasional.

3. Variabel bebas tidak memerlukan asumsi multivariate normality

4. Asumsi homokedastis tidak diperlukan

5. Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)

6. Pengamatan dilakukan secara independen (misalnya, dengan teknik random

sampling)

7. Logistic Regression mewajibkan seluruh data dalam bentuk numerik

8. Jika berkategori (Pria/Wanita, Ya/Tidak) harus diubah dalam bentuk angka.

Langkah analisis regresi logistik

Page 4: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Beberapa Contoh Aplikasi

• Memprediksi probabilitas seseorang mengalami serangan jantung dalam satu periode

tertentu

• Berdasarkan: umur, sex, berat badan.

• Memprediksi apakah pasien memiliki penyakit yang dicurigai (seperti diabetes)

• Berdasarkan: berat, tinggi, tekanan darah, dan beragam test darah lainnya.

• Memprediksi kemungkinan pelanggan akan membeli sebuah produk, atau berlangganan

sebuah layanan (seperti contoh kita sebelumnya)

• Berdasarkan: umur, sex, pekerjaan, lingkungan hidup.

• Memprediksi probabilitas kegagalan sebuah produk untuk menghindari kekecewaan

pelanggan.

• Berdasarkan: tingkat ketahanan produk, durabilitas, dll.

• Memprediksi apakah nasabah dapat menyanggupi pembayaran kredit.

• Berdasarkan: umur, sex, pekerjaan, jumlah anak, gaji, dll.

Kapan kita gunakan Logistic Regression?

• Jika data berupa binary, seperti:

• Kelompok A atau B

• Lulus atau Tidak

• Berlangganan atau Tidak

• Jika kita membutuhkan pengelompokkan dalam bentuk probabilitas

• Data bersifat “linearly separable”

• Linearly Separable

• Dapat dipisahkan secara linear

• Jika data 2D, dipisahkan garis

• Jika data 3D, dipisahkan plane

• Jika data >3D, dipisahkan hyper-plane.

• Secara teori, Logistic Regression sebenarnya juga dapat digunakan untuk data yang

bersifat “non-linearly separable”

Page 5: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Memodelkan Logistic Regression

Logistic Function

• Logistic Function juga umum disebut dengan Sigmoid Function.

• Didefinisikan sebagai

Page 6: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Support Vector Machines

- SVM adalah algoritma supervisi untuk melakukan klasifikasi baik linear maupun

nonlinear tergantung pada margin maksimalisasi diantara titik suporrt, mapping data

dapat ditransformasi kedalam dimensi yang lebih tinggi.

- Support Vector Machine Salah satu algoritma Machine Learning termasuk dalam

kategori Supervised Learning, termasuk dalam algoritma klasifikasi sehingga SVM

membutuhkan data traning.

- SVM dibangun oleh Vapnik dan Cortes pada 1992, SVM telah sukses diaplikasikan

kebanyak kasus seperti pengenalan tulisan tangan, prediksi runtun waktu, pengenalan

suara.

- Karakteristik SVM adalah sebagai berikut:

1. Secara prinsip SVM adalah linear classifier

2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke

ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector

yang baru tersebut. Hal ini membedakan SVM dari solusi pattern recognition pada

umumnya, yang melakukan optimisasi parameter pada ruang hasil transformasi

yang berdimensi lebih rendah daripada dimensi input space.

3. Menerapkan strategi Structural Risk Minimization (SRM)

4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua class.

Tujuan SVM

Menemukan sebuah hyperplane pemisah yang optimal, yang memaksimalkan margin training

data.

Hyperplane yaitu garis pemisah antara 2 kelompok data.

Page 7: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Persamaan Hyperplane:

Optimize Hyperplane dengan Margin

Page 8: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Contoh Margin dua Hyperplane yang tidak baik:

Contoh Margin dua Hyperplane yang baik:

Jenis Data

Secara umum jenis data yang akan ditemukan ada 2 linear dan non linear seperti gambaran

berikut:

Page 9: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Untuk kasus linear sangat mudah untuk menemukan margin/pembatas seperti berikut:

Sedangkan untuk kasus nonlinear, dibutuhkan teknik hyperplane yaitu transformasi ke

dimensi lebih tinggi lagi

Page 10: MODUL PERTEMUAN 8 Logistic Regression dan Support Vector ...lbi.si.fti.unand.ac.id/wp-content/uploads/2019/08/Modul-Pertemuan-8.pdf · Logistic Regression dan Support Vector Machines

PRAKTIKUM DATA MINING

Inti dari SVM adalah mencoba untuk mencari separating hyperplane alias pembatas secara

linear (yang non linear harus dibikin linear dulu).

Tools yang Digunakan

Ada banyak tools untuk melakukan mencoba SVM, jika dengan Python dengan

menggunakan pustaka sklearn.

Persiapan Pustaka/Library

Library yang digunakan cukup banyak yaitu:

- Numpy untuk mengolah matrix

- Pandas untuk membaca data struktur

- Matplotlib untuk visualisasi plot

- Sklearn untuk machine learningnya

B. Instruksi Praktikum