oleh hanggara bima pramesti

14
KLASTERISASI DATA UNSUPERVISED MENGGUNAKAN METODE K-MEANS REPOSITORY OLEH HANGGARA BIMA PRAMESTI NIM. 1603115572 PROGRAM STUDI SISTEM INFORMASI JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS RIAU PEKANBARU 2020

Upload: others

Post on 28-Mar-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSITAS RIAU
Mahasiswa Program Studi S1 Sistem Informasi
Jurusan Ilmu Komputer
ABSTRACT
Each year the research of student’s thesis is increasing and it is possible to have the same
or similar topics, where this thesis document can be grouped or clusterized based on the
similiarity pattern of titles. Before doing a thesis document clustering, the title of the
thesis will be weighted using the Text Mining method and Term Frequency-Inverse
Document Frequency (TF-IDF). The grouping method used is the K-Means method
which is an unsupervised clustering technique with the calculation distance of similarities
using Cosine Similarity and the selection of initial cluster centroids that have been
developed using Improved K-Means, which combines distance and density optimization
methods. The final result of the clustering using 73 data title text of the thesis student
generates seven clusters where members of each cluster have a high similiarity seen from
the title text of a fellow cluster member.
Keywords : Clustering, Cosine Similiarity, Improved K-Means, K-Means, TF-IDF.
ABSTRAK
Setiap tahun penelitian skripsi mahasiswa semakin bertambah dan memungkinkan
terdapat topik yang sama atau serupa, dimana dokumen skripsi ini dapat dikelompokkan
atau diklasterisasi berdasarkan pola kemiripan judul. Sebelum melakukan klasterisasi
dokumen skripsi, judul skripsi akan dilakukan pembobotan kata menggunakan metode
Text Mining dan Term Frequency-Inverse Document Frequency (TF-IDF). Metode
pengelompokan yang digunakan yaitu metode K-Means yang merupakan teknik
klasterisasi unsupervised dengan perhitungan jarak similiaritas menggunakan Cosine
Similiarity dan pemilihan centroid awal klaster yang telah dikembangkan menggunakan
Improved K-Means yaitu menggabungkan metode optimasi jarak dan densitas. Hasil
akhir dari klasterisasi menggunakan 73 data teks judul skripsi mahasiswa menghasilkan
tujuh klaster dimana anggota tiap klaster memiliki tingkat similiaritas yang tinggi dilihat
2
Kata Kunci : Cosine Similiarity, Improved K-Means, K-Means, Klasterisasi, TF-IDF.
PENDAHULUAN
Skripsi adalah suatu karya tulis ilmiah yang wajib ditulis oleh mahasiswa dan
merupakan persyaratan untuk mendapatkan status sarjana (S1) di setiap Perguruan
Tinggi.
Setiap tahun penelitian skripsi mahasiswa semakin bertambah dan memungkinkan
mahasiswa mengambil topik yang sama atau serupa, dimana dokumen skripsi ini dapat
dikelompokkan atau diklasterisasi berdasarkan pola kemiripan judul.
Teks judul skripsi tersebut akan dilakukan pembobotan kata menggunakan metode
Text Mining dan Term Frequency-Inverse Document Frequency (TF-IDF) yang
kemudian data vektor hasil pembobotan ini digunakan untuk melakukan pengelompokan
dokumen skripsi berdasarkan kemiripan judul tiap skripsi. Metode pengelompokan yang
digunakan yaitu metode K-Means dengan pemilihan centroid awal klaster yang telah dikembangkan menggunakan Improved K-Means yaitu menggabungkan metode optimasi
jarak dan densitas.
Untuk mengatasi permasalahan di atas, maka penelitian ini dilakukan untuk menguji
metode yang sudah ada dan diterapkan pada kasus klasterisasi data unsupervised
dokumen skripsi menggunakan metode k-means.
METODE PENELITIAN
Objek penelitian yang digunakan adalah data skripsi. Penulis menerapkan beberapa
metode penelitian dalam pengumpulan data sebagai berikut :
1. Studi Literatur
Melakukan studi literatur tentang prinsip-prinsip kerja perancangan, pembuatan
sistem informasi dan metode yang digunakan melalui referensi yang ada di buku,
jurnal, laporan penelitian dan informasi dari internet.
2. Observasi
Melakukan observasi yaitu pengamatan secara langsung dan melakukan pencatatan
data terhadap arsip data skripsi yang berupa CD pada prodi SI jurusan Ilkom FMIPA
UNRI.
b. Peralatan yang Digunakan
1. Perangkat Keras (Hardware)
a) Laptop Asus Intel® Celeron® CPU 1007U @1.50GHz (2 CPUs), ~1.5GHz
b) Printer Epson L210
2. Perangkat Lunak (software)
3
c) XAMPP
g) Mozilla Firefox untuk browser menjalankan kode program.
c. Term Frequency-Inverse Document Frequency (TF-IDF)
Term Frequency-Inverse Document Frequency atau TF-IDF merupakan suatu metode
yang digunakan dalam melakukan pembobotan terhadap kemunculan kata dalam suatu
dokumen. TF menyatakan jumlah kata yang muncul dalam suatu dokumen. Sedangkan
IDF menunjukkan tingkat kepentingan suatu kata yang terdapat dalam kumpulan
dokumen (Susilowati dkk., 2015).
(, ) = (, ) ................................................................................................. (2.1)
dimana :
() = log (
(, ) = (, ) () ........................................................................... (2.3)
d. Cosine Similiarity
Cosine Similiarity atau kemiripan kosinus adalah ukuran jarak yang digunakan untuk
data yang berupa vektor dokumen. Pada dasarnya sebuah dokumen bisa dipandang
sebagai data yang berisi ratusan atau bahkan ribuan atribut, dimana setiap atribut
menyatakan sebuah term atau istilah (kata) yang nilainya berupa frekuensi kemunculan
istilah dalam dokumen tersebut. Vektor dokumen bisa memiliki ribuan atribut (kata) yang
frekuensinya banyak bernilai 0 (Suyanto, 2017).
Kemiripan yang diberikan adalah 1 jika dua vektor x dan y sama, dan bernilai 0 jika
kedua vektor x dan y berbeda (Prasetyo, 2014).
Berikut formula Cosine Similiarity untuk mengukur kesamaan antara dua vektor :
(, ) = .
................................................................................................... (2.4)
Dimana tanda titik (.) melambangkan inner-product, . = ∑ =1 , dan adalah
panjang dari vektor x, = √∑ 2
=1 = √. .
Algoritma K-Means bekerja dengan empat langkah (Suyanto, 2017), yaitu :
1. Dari himpunan data yang akan diklasterisasi, dipilih sejumlah k objek secara acak
sebagai centroid awal.
4
2. Setiap objek yang bukan centroid dimasukkan ke klaster terdekat berdasarkan ukuran
jarak tertentu.
3. Setiap centroid diperbarui berdasarkan rata-rata dari objek yang ada di dalam setiap
klaster.
4. Langkah kedua dan ketiga tersebut diulang-ulang (diiterasi) sampai semua centroid
stabil atau konvergen, dalam arti semua centroid yang dihasilkan dalam iterasi saat
ini sama dengan semua centroid yang dihasilkan pada iterasi sebelumnya.
Jadi, dalam clustering dokumen dengan K-Means dasar algoritmanya adalah sebagai
berikut (Langgeni dkk., 2010) :
1. Inisialisasi cluster.
2. Masukkan setiap dokumen ke cluster yang paling cocok berdasarkan ukuran
kedekatan dengan centroid.
Centroid adalah vektor term yang dianggap sebagai titik tengah cluster.
Ukuran kedekatan yang digunakan adalah Cosine Similiarity berdasarkan Persamaan
(2.4).
3. Setelah semua dokumen masuk ke cluster. Hitung ulang centroid cluster berdasarkan
dokumen yang berada di dalam cluster tersebut.
Untuk menghitung centroid cluster ke-i, digunakan rumus mencari rata-rata :
= ∑
: nilai atribut term j pada data anggota k
: jumlah data yang menjadi anggota cluster ke-i 4. Jika centroid tidak berubah maka stop. Jika berubah, kembali ke langkah 2.
Pada penelitian ini jumlah klaster didapatkan dengan cara yang paling sederhana yaitu
menggunakan estimasi atau memperkirakan, rumus yang digunakan adalah (Suyanto,
2017) :
Jumlah klaster menggunakan rumus di atas akan menghasilkan bilangan berkoma, maka
dilakukan perubahan untuk melakukan pembulatan keatas menjadi :
= ⌈√
2 ⌉ ................................................................................................................. (2.7)
Menurut Xiong (2016) dikutip dalam jurnal (Abdurasyid dkk., 2018), dalam beberapa
pendekatan untuk mengoptimasi K-Means, pemilihan centroid awal dilakukan dengan
mengambil nilai jarak terjauh atau yang memiliki nilai densitas terbesar antar objek data.
Akan tetapi jika di dalam dataset terdapat data yang kotor atau terisolasi maka terdapat
kemungkinan data ini digunakan sebagai centroid awal. Oleh karena itu dalam melakukan
pemilihan centroid awal dapat dilakukan dengan menggabungkan metode optimasi jarak
5
Langkah-langkah dari algoritma Improved K-Means yang merupakan kombinasi
antara metode optimasi jarak dan densitas dijelaskan sebagai berikut :
Input : dataset dokumen D = {1, 2, … , } dan k
Output : k klaster
1. Hitung jarak antara setiap pasangan dua objek data yang berada dalam dataset D
menggunakan Euclidean Distance.
( , ) = √(1 − 1)2 + (2 − 2)2 + + ( − )2 ...................... (2.8)
Dimana = (1, 2, … , ) dan = (1, 2, … , ) merupakan dua m dimensi
objek data.
2 x ∑ ( , ) ............................................................................. (2.9)
Dimana C merupakan kombinasi pasangan jarak.
3. Hitung nilai parameter densitas seluruh objek data yang berada dalam dataset D.
() = ∑ ( − ( , )) =1 .................................................. (2.10)
Dimana () merupakan sebuah fungsi bernilai 1 jika z lebih besar dari 0 dan bernilai 0 jika sebaliknya.
4. Hitung rata-rata nilai parameter densitas dataset D.
5. Dengan menggunakan rata-rata densitas, tentukan objek data yang terisolasi dan
hapus data ini dari D sehingga menghasilkan koleksi A yang memiliki nilai parameter
densitas tertinggi.
() < α x () ..................................................................... (2.11) dimana α berada pada rentang 0 – 1 dalam menentukan data terisolasi.
6. Pilih objek data yang memiliki nilai parameter densitas tertinggi dari A sebagai nilai
centroid awal klaster pertama, masukkan kedalam koleksi B, dan hapus dari A.
7. Dari koleksi A, pilih objek data yang memiliki jarak terjauh dari objek data yang
berada dalam B sebagai nilai centroid awal klaster berikutnya, masukkan kedalam B,
dan hapus dari A.
8. Ulangi langkah 7 hingga jumlah objek data k berada dalam koleksi B.
9. Berdasarkan k centroid awal klaster, lakukan K-Means untuk melakukan
pengelompokan terhadap objek data.
HASIL DAN PEMBAHASAN
a. Pengumpulan Data
Dari hasil pengumpulan data diperoleh data skripsi pada prodi SI FMIPA UNRI
sebanyak 73 data. Tabel 1 menunjukkan beberapa data skripsi dari hasil pengumpulan
data.
Mahasiswa Judul Skripsi
6
Informasi Akademik Menggunakan Metode End-User
Computing Satisfaction (Eucs) (Studi Kasus: Universitas
Riau)
1403114868
Sawit Dengan Bio-Speckle Imaging Menggunakan Metode
K-Means Clustering
Tahun Berbasis Android Dengan Metode Backward Chaining
… …
Menggunakan Algoritma Fp-Growth Berbasis Web
b. Tahapan Text Preprocessing
Pada tahap ini akan dilakukan proses text preprocessing, pertama tahap case folding
dimana huruf dalam data diubah kedalam case yang sama menjadi huruf kecil. Dalam
studi kasus ini juga dilakukan pembersihan karakter selain huruf yaitu angka dan karakter
special, kecuali karakter special strip (-), karena ada beberapa kata istilah yang
mengharuskan menggunakan karakter strip (-), seperti end-user, multi-attribute, k-means,
dan sebagainya. Kata yang merupakan kata istilah tersebut akan dibiarkan menjadi satu
kesatuan kata. Selanjutnya tahap filtering dengan stopwords yaitu kata-kata yang
dianggap tidak deskriptif akan dibuang, seperti kata sambung, kata depan dan kata
sandang. Lalu tahap stemming dimana kata-kata yang mempunyai kata dasar akan
dikembalikan dan diubah menjadi kata dasar itu sendiri. Dan terakhir adalah tahap
tokenizing yaitu semua kalimat dipotong berdasarkan tiap kata yang menyusunnya.
Algoritma stopwords dan stemming yang digunakan adalah algoritma stopword
remover dan stemmer yang ada pada package atau library Sastrawi. Kata-kata stopwords
yang akan dihilangkan telah terdapat di dalam package/library Sastrawi dan juga dapat
ditambahkan sesuai kebutuhan. Dalam studi kasus ini ada beberapa kata yang telah
ditambahkan dalam kamus stopwords dimana tidak terdapat dalam kamus sebelumnya.
Tabel 2 adalah hasil data setelah dilakukan text preprocessing.
Tabel 2. Data Hasil Text Preprocessing
D Text Preprocessing
1 sistem, pakar, diagnosa, rusa, hardware, komputer, bas, web, guna, metode,
forward, chaining
2 evaluasi, tingkat, puas, guna, layan, sistem, informasi, akademik, guna, metode,
end-user, computing, satisfaction, eucs, studi, kasus, universitas, riau
3 klasifikasi, matang, tandan, buah, segar, tbs, kelapa, sawit, bio-speckle, imaging,
guna, metode, k-means, clustering
4 sistem, pakar, tolong, pertama, anak, usia, tahun, bas, android, metode, backward,
chaining
7
73 terap, strategi, cross, selling, kombinasi, menu, guna, algoritma, fp-growth, bas,
web
Setelah semua tahap text preprocessing dilakukan terhadap 73 dokumen skripsi
didapati jumlah total terms unik atau kata unik berdasarkan judul skripsi sebanyak 392
kata yang dapat di lihat pada Tabel 3.
Tabel 3. Terms Unik Hasil Text Preprocessing
Kata Unik sistem pakar diagnosa rusa hardware komputer bas web guna metode forward chaining evaluasi tingkat puas layan
informasi akademik end-user computing satisfaction eucs studi kasus universitas riau klasifikasi matang tandan buah segar tbs kelapa sawit bio-speckle imaging k-means clustering tolong pertama anak usia tahun android backward
prediksi kelulus mahasiswa dasar jalur masuk kuliah naive bayes manajemen informatika analisis sentimen go-jek
indonesia media twitter classifier learning vector quantization identifikasi banding efektifitas algoritma apriori fp-
growth pola beli konsumen kafe bab dukung putus tentu terima beasiswa bidikmisi smart simple multi attribute rating technique tata kelola teknologi framework cobit domain dss deliver service and support rumah sakit ukur
kualitas website goriau webqual deteksi sepeda motor matic injeksi program minat bakat siswa tsukamoto profile
matching optimasi pendek distribusi air mineral bee colony optimization registrasi pasien pieces kaca soal aplikasi
computer based test cbt fisher-yates shuffle fmipa sedia unit bekas single exponential smoothing harga provinsi deep implementasi rational unified process ancang prestasi autokorelasi spasial data bakar hutan indeks moran importance
performance analysis ipa portal obat frequent pattern growth apotek online public access catalog pustaka end user
terap teliti abdi masyarakat simlitabmas mendiagnosa hama tanam karet nanas certainty factor cf analisa jahat jalan
street crime pekanbaru association rule rencana anggar biaya bangun pt graha gemilang wi-fi fakultas guru ilmu didik servqual quality pilih additive weighting dapodik technology acceptance model tam dinas budaya kabupaten
siak calon bantu langsung tunai blt camat rimba lintang topsis narkoba dempster-shafer laptop awal telinga hidung
tenggorok tht objective by ratio golong uang tunggal pasang presiden dokumen bahasa machine ingat jadwal periksa
medis rawat rsud arifin achmad sms gateway kos kampus weighted product beras sejahtera rastra fuzzy multiple decision making fmadm rok hilir promethee proposal usul giat desa ganggu jiwa case reasoning seleksi ppa
matakuliah kartu theory of use utaut optimisasi ruang ant geografis meta lokasi tempat buang sampah tpss kota jual
mobil double sukses dekat delone mclean k-nearest neighbor kelompok ukt cari rute sekolah floyd-warshall mobile
rekomendasi wisata sumatera barat electre page application amal produksi ptpn regression market basket indomaret cabang duri kemas makan organisasi himpun baik tingat antri umum daerah rawan titik api dataset topic mini batch
padu scrum agile software development kantor tampan jurus tinggi cafe multi-attribute sma simpel sman lubuk
jaring internet qos rma demam darah dengue dbd ripple down tengah juru teknik information infrastructure library
itil versi strategi cross selling kombinasi menu
Total Kata : 392 Kata
c. Tahapan Pembobotan TF-IDF
Untuk perhitungan TF yaitu menghitung jumlah frekuensi terhadap kemunculan kata
dalam suatu dokumen. Kata yang dihitung adalah 392 kata unik, yang telah didapatkan
terhadap 73 dataset hasil text preprocessing menggunakan Persamaan (2.1). Kemudian
sebelum mendapatkan nilai IDF dari Persamaan (2.2), dicari terlebih dahulu nilai DF(t)
yaitu menghitung frekuensi dokumen yang mengandung kata t. Lalu untuk perhitungan
IDF adalah hasil log dari jumlah seluruh data dibagi jumlah DF(t) yaitu berdasarkan
Persamaan (2.2), log yang digunakan adalah log basis 10. Untuk perhitungan TF-IDF
adalah hasil perkalian dari TF dan IDF menggunakan Persamaan (2.3). Vektor hasil
proses TF-IDF dapat dilihat pada Tabel 4.
8
D
TF.IDF(d,t)
Sistem
(t1)
pakar
(t2)
diagnosa
(t3) …
kombinasi
(t391)
menu
(t392)
… … … … … … …
73 0.173126 0 0 … 1.863322 1.863322
Dari Tabel 4 dapat dilihat bentuk vektor hasil TF-IDF menghasilkan matriks
berukuran 73 x 392, yaitu dari 73 data skripsi menghasilkan 392 kata unik berupa bobot
kemunculan tiap kata yang mewakili tingkat kepentingan kata tersebut terhadap suatu
dokumen. Hasil vektor inilah yang digunakan sebagai acuan klasterisasi. Sebelum
melakukan klasterisasi, tahap selanjutnya yaitu melakukan inisialisasi centroid awal.
d. Tahapan Inisialisasi Centroid dengan Improved K-Means
Sebelum melakukan proses inisialisasi centroid, jumlah klaster ditetapkan terlebih
dahulu dengan cara mengestimasi atau memperkirakan menggunakan Persamaan (2.7).
Berikut perhitungan mencari jumlah klaster dari 73 data skripsi :
= ⌈√ 73
Jadi, inisialisasi centroid awal akan ditentukan sebanyak tujuh centroid klaster
menggunakan metode Improved K-Means. Hasil inisialisasi centroid awal klaster dari
tahapan Improved K-Means dapat dilihat pada Tabel 5.
Tabel 5. Centroid Awal Klaster
C Centroid Cluster
1 Data ke-51 = [0.173126, 0, 0, …, 0, 0]
2 Data ke-36 = [0.173126, 0.821930, 1.164352, …, 0, 0]
3 Data ke-72 = [0.173126, 0, 0, …, 0, 0]
4 Data ke-14 = [0.173126, 0, 0, …, 0, 0]
5 Data ke-18 = [0.173126, 0, 0, …, 0, 0]
6 Data ke-63 = [0, 0, 0, …, 0, 0]
7 Data ke-22 = [0.173126, 0, 0, …, 0, 0]
Dari Tabel 5, centroid yang telah didapat akan digunakan sebagai nilai centroid
awal klaster pada iterasi ke-1.
9
Selanjutnya adalah menjalankan algoritma K-Means. Berikut uraian langkah-langkah
klasterisasi dengan K-Means menggunakan data hasil vektor TF-IDF pada Tabel 4 :
1. Menghitung jarak tiap data objek dengan masing-masing centroid klaster pada Tabel
5 menggunakan Cosine Similiarity berdasarkan Persamaan (2.4).
Iterasi 1 :
(1, 1) = 1.1
= 0.006748
(1, 2) = 1.2
= 0.137430
Hitung jarak data 1 terhadap tiap centroid hingga centroid cluster 7.
Jarak similiaritas data 1 dengan cluster 7 :
(1, 7) = 1.7
= 0.003463
klaster seperti cara di atas.
2. Setelah jarak tiap data ke masing-masing klaster telah didapat, alokasikan tiap data
kedalam klaster terdekat yang memiliki jarak similiaritas tertinggi. Hasil perhitungan
pada iterasi ke-1 dapat dilihat pada Tabel 6.
Tabel 6. Hasil Perhitungan Jarak Similiaritas Iterasi Ke-1
D Jarak Similiaritas (cos)
1 0.006748 0.137430 0.002053 0.024587 0.025139 0.000349 0.003463
2 0.005813 0.002368 0.137553 0.043454 0.002984 0.012736 0.295071
3 0.002259 0.000901 0.000230 0.001135 0.001160 0.134436 0.001160
4 0.004431 0.036293 0.001246 0.008821 0.009018 0 0.002274
5 0.150465 0.000865 0.023550 0.121857 0.044353 0.010181 0.108243
… … … … … … … …
73 0.000525 0.016249 0.070157 0.016623 0.016996 0.030200 0.000270
Pada data 1 mempunyai jarak similiaritas tertinggi terhadap cluster 2, maka data 1
masuk kedalam cluster 2. Pada data 2 mempunyai jarak similiaritas tertinggi terhadap
cluster 7 maka data 2 masuk kedalam cluster 7. Proses pengalokasian data dilakukan
hingga data ke-73.
3. Menghitung nilai centroid baru dengan menggunakan Persamaan (2.5), yang
merupakan perhitungan rata-rata tiap atribut term data objek yang tergabung dalam
anggota sebuah klaster.
10
Jumlah anggota pada cluster 1 berjumlah 18 yaitu data 5, 6, 7, 8, 20, 31, 33, 38, 40,
42, 50, 51, 54, 56, 58, 61, 66, 67.
Maka perhitungan centroid baru didapatkan dari hasil rata-rata ke-392 atribut term
dari 18 data objek yang tergabung dalam cluster 1.
1,1 = 0 + 0 + 0.173126 + 0.173126 + + 0.173126
18 = 0.125036
18 = 0
1,73 = 0 + 0 + 0 + 0 + + 0
18 = 0
Perhitungan centroid baru dilanjutkan hingga cluster 7 seperti cara di atas. Sehingga
menghasilkan centroid baru tiap klaster yang dapat dilihat pada Tabel 7.
Tabel 7. Centroid Klaster Baru untuk Iterasi Ke-2
C Centroid Cluster
1 [0.125036, 0, 0, ..., 0, 0]
2 [0.173126, 0.821930, 0.582176, …, 0, 0]
3 [0.103876, 0, 0, …, 0.372664, 0.372664]
4 [0.194767, 0, 0, …, 0, 0]
5 [0.138501, 0.1643860, 0.277240, …, 0, 0]
6 [0.043281, 0, 0, …, 0, 0]
7 [0.103876, 0, 0, …, 0, 0]
4. Ulangi langkah 1 sampai 3 hingga perhitungan hasil centroid baru untuk iterasi
selanjutnya sama dengan centroid pada iterasi sebelumnya. Jika centroid baru dan
centroid lama tidak berubah maka iterasi dihentikan yang artinya anggota tiap klaster
juga tidak berubah dan centroid saat ini telah stabil atau konvergen.
Dari proses klasterisasi 73 data berdasarkan judul skripsi menggunakan K-Means,
menghasilkan dua iterasi, dikarenakan pada saat perhitungan centroid baru setelah
perhitungan jarak iterasi ke-2 yaitu centroid untuk iterasi ke-3 sama dengan centroid lama
dan iterasi dihentika yang artinya anggota tiap klaster juga tidak akan berubah lagi dan
centroid saat ini telah stabil atau konvergen.Hasil akhir anggota klaster dapat dilihat pada
Tabel 8.
Cluster Jumlah Anggota Data Anggota
1 18 5, 6, 7, 8, 20, 31, 33, 38, 40, 42, 50, 51, 54, 56, 58, 61,
66, 67
2 10 1, 4, 26, 27, 34, 35, 36, 44, 60, 70
3 5 25, 32, 48, 72, 73
4 8 10, 14, 41, 43, 45, 46, 68, 71
5 5 13, 18, 23, 52, 57,
6 12 3, 9, 15, 19, 21, 28, 39, 49, 55, 62, 63, 64
7 15 2, 11, 12, 16, 17, 22, 24, 29, 30, 37, 47, 53, 59, 65, 69
11
Penerapan setiap proses dituangkan kedalam kode program komputer, mulai dari
tahap Text Preprocessing, pembobotan TF-IDF, inisialisasi centroid awal dengan
Improved K-Means, dan klasterisasi dengan K-Means.
Gambar 1 adalah tampilan hasil akhir proses text preprocessing. Gambar 2 adalah
tampilan hasil akhir proses pembobotan TF-IDF, Gambar 3 adalah tampilan hasil akhir
proses inisialisasi centroid dengan Improved K-Means, dan Gambar 4 adalah tampilan
hasil akhir proses clustering dengan K-Means.
Gambar 1. Hasil Proses Text Preprocessing
Gambar 2. Hasil Proses Pembobotan TF-IDF
Gambar 3. Hasil Proses Inisialisasi Centroid Awal
12
KESIMPULAN
Berdasarkan hasil pengujian dapat diambil kesimpulan sebagai berikut :
1. Dari 73 data skripsi yang dilakukan clustering berdasarkan teks judul skripsi
menghasilkan tujuh klaster yang berbeda.
2. Dari tujuh klaster hasil clustering dengan Improved K-Means, cluster 1, 6, dan 7
memiliki anggota yang jika dilihat bukan hanya menghasilkan anggota dengan satu
13
kategori, bahkan lebih. Karena similiaritas yang diukur bukan hanya berdasarkan kata
awal, kata akhir ataupun kata yang dianggap sebagai kategori suatu data. Tetapi
diukur berdasarkan keseluruhan kata yang menyusunnya.
3. Dalam sebuah klaster terkadang terdapat data dengan kategori yang berbeda dimana
satu kategori mendominasi dan satu nya lagi tidak, yang artinya judul data yang
memiliki kategori tidak mendominasi ini belum banyak diambil dan diminati oleh
mahasiswa, serta pihak prodi dapat menyarankan judul dengan topik-topik tersebut
kepada mahasiswa aktif lainnya.
4. Kelemahan pada sistem ini adalah apabila jumlah data yang diklaster terbilang
banyak, maka proses pembobotan TF-IDF dan inisialisasi centroid Improved K-
Means memerlukan waktu yang cukup lama pula.
SARAN
Adapun saran dari penelitian ini adalah sebagai berikut :
1. Dibutuhkan suatu cara atau algoritma penentuan jumlah klaster dan penentuan
centroid awal yang lebih baik untuk klasterisasi dokumen yang dapat dijalankan
secara otomatis bersamaan pada saat fitur klasterisasi dijalankan.
2. Penelitian ini dapat dikembangkan dengan algoritma pembototan atau algoritma
clustering lainnya, serta dapat juga membandingkan atau mengkombinasikan dengan
algoritma lain untuk mendapatkan hasil yang lebih baik.
UCAPAN TERIMA KASIH
Penulis mengucapkan terima kasih kepada Bapak Aidil Fitriansyah,S.Kom., MIT yang telah membimbing, memberikan arahan, masukan, dan memotivasi serta membantu penelitian dan penulisan karya ilmiah ini.
DAFTAR PUSTAKA
Abdurasyid, M., Indriati, & Perdana, R. S. (2018). Implementasi Metode Improved K-
Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi
Informasi Dan Ilmu Komputer. Jurnal Pengembangan Teknologi Informasi Dan
Ilmu Komputer, 2(10), 3939–3947.
Langgeni, D. P., Baizal, Z. A., & Wibowo, Y. F. A. (2010). Clustering Artikel Berita
Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar
Nasional Informatika 2010, 1–10.
Prasetyo, E. (2014). Data Mining: Mengolah Data Menjadi Informasi Menggunakan
Matlab. Yogyakarta: Andi.
Susilowati, E., Sabariah, M. K., & Gozali, A. A. (2015). Implementasi Metode Support
Vector Machine untuk Melakukan Klasifikasi Kemacetan Lalu Lintas pada Twitter.
E-Proceeding of Engineering, 2(1), 1478–1484.
Suyanto. (2017). Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Bandung:
Informatika Bandung.