04d3e3bb011039f40f6146c307f983cd

5/23/2018 04d3e3bb011039f40f6146c307f983cd

1/15

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN

ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY

DAN VECTOR SPACE MODEL

MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE

OFFICE OF TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY

AND VECTOR SPACE MODEL

Herman 1, Andani Achmad 2, Amil Ahmad Ilham 2

1Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,Kementerian Komunikasi dan Informatika

2Jurusan Elektro, Prodi Informatika, Fakultas Teknik, Universitas Hasanuddin

Alamat Korespondensi:

Herman, S.Kom

Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,Kementerian Komunikasi dan InformatikaMakassar. Sulawesi Selatan.HP: 08219200121

5/23/2018 04d3e3bb011039f40f6146c307f983cd

2/15

Email: [email protected]

ABSTRAK

Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas

dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskahdinas. Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma termfrequency inverse document frequency (TF-IDF) dan vector space model. Metode text mining menggunakan

teks di dokumen untuk menentukan kata kunci. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata

kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang

tersedia. Implementasi sistem ini melakukan pembelajaran untuk mendapatkan model dari setiap kategori

sehingga pada saat klasifikasi menggunakan model tersebut untuk dibandingkan dengan data uji. Hasilpenelitian ini menunjukkan bahwa perbedaan jumlah data training mempengaruhi akurasi klasifikasi dokumen.

Faktor fisik dokumen dan hasil pembacaan optical character recognition (OCR) juga menjadi factor yang dapatmempengaruhi akurasi klasifikasi dokumen.

Kata kunci : Klasifikasi dokumen, naskah dinas, TF-IDF, vector space model.

ABSTRACT

The aims of the study were to design and implement a classification system of documents with many categories

of services to facilitate storage and retrieval of documents in the office script. The method of study was a textmining a supervised leraning algorithm of the term frequency - inverse document frequency (TF-IDF) and the

vector space model. Text mining method used the text in the document to determine the key word. TF-IDFalgorithm to assigned weighting on every keyword on every category and vector space model to seek similarities

of keywords with in the available category.The implementation of the system is the learning process of findingsuch a model in every category so that during classification, the model is used to compare with the comparedata. These results of the research indicated that the differences of training data number influenced document

classification accuracy. Document physical factor and the result of optical character recognition (OCR) was

also a factor which can influence the document classification accuracy.

Key words: Documents classification, official script, TF-IDF, vector space model.

5/23/2018 04d3e3bb011039f40f6146c307f983cd

3/15

PENDAHULUAN

Dalam puluhan tahun terakhir, jumlah dokumen semakin lama semakin bertambah

banyak dan beragam. Jika jumlah dokumen semakin bertambah banyak maka proses

pencarian dan penyajian dokumen menjadi lebih sukar / sulit, sehingga akan lebih mudah jika

dokumen tersebut sudah tersedia sesuai dengan kategorinya masing-masing. Sebagai

konsekuensi, sangatlah penting untuk bisa mengorganisir dan mengklasifikasi dokumen

secara otomatis.

Klasifikasi dokumen teks adalah permasalahan yang mendasar dan penting. Didalam

dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan

bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu,

permasalahan ini merupakan masalah yang cukup kompleks dikarenakan penggunaan bahasa

alami tersebut. Salah satu dari beberapa metode yang dapat digunakan dalam tujuan untuk

mengklasifikasikan dokumen, dimulai dari pengelolaan dokumen teks dengan menggunakan

metode text mining dan mengklasifikasikan dokumen menggunakan algoritma Term

Frequency Inversed Document Frequency (TF-IDF) serta Vector Space Model.

Kenyataan masih banyaknya instansi pemerintah baik lembaga negara, pemerintah

pusat dan daerah, perguruan tinggi negeri serta BUMN/D yang belum sepenuhnya

melaksanakan pedoman tata naskah dinas khususnya dalam mengklasifikasikan naskah dinas

sesuai dengan kategori yang secara umum telah diatur pada Peraturan Menteri Negara

Pemberdayaan Aparatur Negara (PERMENPAN) nomor 22 tahun 2008 tentang Pedoman

Umum Tata Naskah Dinas.

Berdasarkan hal tersebut, penulis akan melakukan penelitian dokumen naskah dinas

secara otomatis.

Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi dokumen

naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam pencarian

dokumen naskah dinasdan mengetahui tingkat akurasi hasil klasifikasi dengan metode TF-IDF dan Vector Space Model dalam mengklasifikasikan dokumen naskah dinas

METODE PENELITIAN

Rancangan Sistem

Pada penelitian ini berfokus pada bagaimana mengimplementasikan sistem klasifikasi

secara otomatis. Sistem secara umum dapat dilihat pada gambar 1berikut yaitu sistem ini

bekerja dimulai dari dokumen yang masih dalam bentuk fisik (kertas) di scan menggunakan

5/23/2018 04d3e3bb011039f40f6146c307f983cd

4/15

media scanner untuk di konversi ke dalam bentuk file berbasis teks (*.txt) ataupun

mengekstrak file yang telah di digitalkan dalam bentuk image menggunakan teknik OCR

(Optical Character Recognizing), kemudian hasilnya dilakukan proses text mining, yang

meliputi proses case folding, tokenizing dan filtering menggunakan stoplist. Setelah itu term

yang dihasilkan dilakukan proses pembobotan atas frekuensi kemunculannya dengan

algoritma TF IDF, yang selanjutnya akan dilakukan pencarian kemiripan dengan algoritma

Vector Space Model. Ketika hasil similiarity / kemiripan diperoleh maka akan dilakukan

pemeringkatan berdasarkan bobotnya, dimana bobot yang tertinggi adalah yang diasumsikan

sebagai hasil klasifikasi.

Pemodelan Sistem

Use Case Diagram

Pada sistem ini terdapat dua aktor yaitu user. Ketika pertama kali menjalankan sistem,

user melakukan login sesuai dengan hak yang diperolehnya. Kemudian user dapat

mengupload dokumen dalam bentuk image yang telah diketahui kategorinya dan melakukan

proses pembelajaran. Selanjutnya user dapat melakukan klasifikasi dokumen yang belum

diketahui kategorinya dan sistem mengklasifikasikan secara otomatis berdasarkan kategori

yang ada. User juga dapat mencari dan melihat hasil klasifikasi dokumen yang telah

tersimpan seperti yang terlihat pada gambar 2,3,4,5. ,Pressman, R (2002), Suhendar.,Gunadi,

H. (2002), Sommerville, I. (2003).

Activity Diagram

Pada gambar 5, Pressman, R (2002), Suhendar.,Gunadi, H. (2002) activity diagram

diperlihatkan aktivitas yang dilakukan user yaitu proses desain diawali memilih menu

training untuk melakukan pelatihan pada sistem, menu klasifikasi untuk menguji sistem

dalam mengklasifikasikan dokumen naskah dinas dan menu searching untuk melakukan

pencarian sesuai dengan kata kunci untuk menemukan dokumen yang relevan.

Rancangan Interface

Pada rancangan interface, untuk menu training dan klasifikasi semua dimulai dari

mengupload file image yang akan dikonversi menjadi teks dan dilakukan proses untuk

memperoleh kata kunci, dimana kata kunci tersebut yang menjadi dasar dalam perhitungan

untuk mengklasifikasikan dokumen naskah dinas seperti yang terlihat pada gambar 6,7,8,9.

HASIL

Hasil implementasi metode text klasifikasi dokumen naskah dinas terdiri dari 2 (dua)

tugas utama yaitu klasifikasi dokumen dan retrival dokumen. Pada bagian klasifikasi terdapat

5/23/2018 04d3e3bb011039f40f6146c307f983cd

5/15

2 (dua) proses baik training maupun klasifikasi dengan menggunakan metode text mining,

TF-IDF dan Vector Space Model.

Hasil pengujian klasifikasi terhadap dokumen yang telah sebelumnya dilakukan telah

dilakukan proses training ternyata mampu mengklasifikasikan semua dokumen dengan benar.

Namun untuk hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

training sebelumnya hanya mampu menghasilkan tingkat akurasi dalam klasifikasi dokumen

di kisaran 70 80%. Pengujian yang dilakukan mencoba mengukur tingkat akurasi

berdasarkan jumlah data training. Hasil pengujian klasifikasi dokumen menunjukkan bahwa

jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen

yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk

fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi,

hal ini dapat terlihat pada tabel 1,2,3,4.

Pengujian Tingkat Akurasi Algoritma

Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

yang masing-masing kategori terdiri dari 10 dokumen yang telah digunakan untuk dilatih

sepenuhnya adalah seluruh klasifikasi 100% benar, seperti pada tabel 1.

Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

yang masing-masing kategori terdiri dari 10 dokumen yang belum pernah dilatih

sebelumnya,dapat dilihat pada tabel 2.

Pada skenario ini, penulis melakukan pengujian klasifikasi seperti pada skenario 2

tetapi dengan meningkatkan jumlah data pembelajaran / latih., dapat dilihat pada tabel. 3

Hasil pengujian terhadap 20 dokumen uji dengan jumlah data latih yang berbeda,

dimana jumlah data latih terus ditambah menghasilkan adanya peningkatan hasil klasifikasi

dari 70% menjadi 75%, dapat dilihat pada tabel 4.

Namun disamping itu juga terdapat faktor lain yang turut mempengaruhi hasil

klasifikasi yaitu dokumen fisik naskah dinas yang dapat menghasilkan karakter-karakter yang

tidak jelas setelah proses ekstraksi teks sehingga bukan hanya menghilangkan kata kunci

yang dibutuhkan untuk proses klasifikasi tetapi menambah kata kunci baru yang tidak

dibutuhkan yang hanya menambah panjang waktu komputasi / perhitungan, seperti pada

5/23/2018 04d3e3bb011039f40f6146c307f983cd

6/15

PEMBAHASAN

Rancangan dari sistem klasifikasi terdiri dari 5 form utama yaitu form training,

klasifikasi, stoplist, searching dan print.

Tahapan-tahapan yang dilakukan dalam klasifikasi adalah proses ekstraksi dokumen,

melakukan proses text mining dimana diantaranya proses case folding, tokenizing dan

filtering. Setelah itu dilakukan proses pembobotan menggunakan algoritma term frequency

dan menghitung inversed document frequency.

Perbedaan pada tahap training dan klasifikasi terletak pada perhitungan cosine. Pada

tahap training proses dilakukan dari ekstraksi gambar ke teks kemudian pengolahan teks

menjadi kata kunci kemudian menghitung nilai setiap kata kunci sampai dengan pembobotan

setiap kata kunci pada setiap kategori setelah itu dismpan kedalam database yang dijadikan

sebagai model pembelajaran.

Kemudian pada proses klasifikasi, pada tahap preprocessing baik ekstraksi gambar ke

teks dan proses text mining diperlakukan sama dengan tahap training namun setelah

memperoleh kata kunci dari dokumen tersebut maka proses penentuan kategorinya dimulai

dengan mencari kata kunci yang sama yang tersimpan pada database, untuk kemudian

dihitung bobot antara jumlah dari bobot semua kata kunci pada suatu kategori dengan jumlah

bobot dari kata kunci yang ada pada database, ini dapat terlihat seperti pada tabel 6 dan 7.

KESIMPULAN DAN SARAN

Berdasarkan hasil penelitian maka dapat disimpulkan bahwa Klasifikasi dokumen

menggunakan algoritma TF-IDF dan vector space model mampu mengklasifikasikan

dokumen naskah dinas dengan banyak kategori. Hasil pengujian klasifikasi terhadap

dokumen yang telah dilakukan training sebelumnya mampu mengklasifikasikan dokumen

dengan akurat. Hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

training sebelumnya menghasilkan tingkat akurasi di kisaran 70 80%. Hasil pengujian

klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi

klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi

ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap

data training maupun hasil klasifikasi. Hasil dari proyek akhir ini belum sempurna, oleh

karenanya untuk meningkatkan hasil yang dicapai dapat dilakukan diharapkan untuk

menggunakan sistem ekstraksi teks (OCR ) yang yang lebih lengkap dalam mendeteksi hasil

karakter baik hasil ketikan maupun tulisan tangan sehingga didapatkan hasil pembacaan yang

lebih baik dalam pengklasifikasian dokumen naskah dinas. Perlunya dikembangkan suatu

5/23/2018 04d3e3bb011039f40f6146c307f983cd

7/15

sistem untuk perbaikan hasil pembacaan secara otomatis yang dapat diintegrasikan dengan

sistem ini sehingga dapat menghasilkan tingkat akurasi klasifikasi yang lebih baik.

5/23/2018 04d3e3bb011039f40f6146c307f983cd

8/15

DAFTAR PUSTAKA

Arief, Achmad Fauzi. (2010).Perangkat Lunak Pengkonversi Teks Tulisan Tangan Menjadi

Teks Digital.Aunurokhman, Ahmad Hatta (2010). Digital Documents Management System Using Text

mining.Basnur, P. W., & Sensuse, D. I. (April 2010). Pengklasifikasian Otomatis Berbasis Ontologi

Untuk Artikel Berita Berbahasa Indonesia. Makara, Teknologi, Vol. 14, No.2 , 29-35.Chenometh, Megan, Song, Min (2009) Text Categorization, dalam Encyclopedia of Data

Warehouse & Data Mining, IGI Global, hal. 1936-1941

Hariyanto, Bambang. (2000)Pengarsipan dan Akses pada Sistem Berkas. Februari Bandung :

Informatika.

Hasibuan, Z. A. (2007). Metodologi Penelitian Pada Bidang Ilmu Komputer dan Teknologi

Informasi. Makassar.

Kurniadi, Adi. (2002).Pemrograman Microsoft Visual Basic 6.0. Jakarta: Elex Media.

Koswara Eko. (2011), Visual Basic 6 Beginner Guide, Mediakom, Yokyakarta.

Kristanto, A. (2003). Perancangan Sistem Informasi dan Aplikasinya. Gava Media,

Yogyakarta.

M. Nazir. (1988)Metode Penelitian. Jakarta: PT. Ghalia Indonesia.Oktanty, Rhizzajian. (2010). Design Structure Of Information System Decree In Faculty Of

Information Techonology.

Umar, Husein. (2008) Metode Penelitian untuk Skripsi dan Tesis Bisnis. PT. RajagrafindoPersada.

5/23/2018 04d3e3bb011039f40f6146c307f983cd

9/15

Tabel 1. Hasil Klasifikasi menggunakan Dokumen yang telah dilatih sebelumnya.

DATA UJIKLASIFIKASI

BENARPERSENTASE

20 20 100 %

Tabel 2. Hasil Klasifikasi menggunakan Dokumen yang belum dilatih sebelumnya.

DATA UJIKLASIFIKASI

BENARPERSENTASE

20 14 70 %

Tabel 3. Jumlah data latih yang akan digunakan untuk skenario 3.

KATEGORIJUMLAH DATA

LATIH (P1)

JUMLAH DATA

LATIH (P2)

JUMLAH DATA

LATIH (P3)

Surat Edaran 10 15 20

Surat Perintah / Tugas 10 15 20Surat Pengantar 10 15 20

Nota Dinas 10 15 20

Berita Acara 10 15 20

JUMLAH 50 75 100

Tabel 4. Hasil Rekapitulasi Pengujian Klasifikasi dokumen

DATA

LATIHDATA UJI

KLASIFIKASI

BENARPERSENTASE

50 20 14 70 %

75 20 15 75 %

100 20 15 75 %

5/23/2018 04d3e3bb011039f40f6146c307f983cd

10/15

Tabel 6. Perhitungan TF, IDF dan W

K1 K2 K3 K4 K5 K1 K2 K3 K4 K5

berita 1 1 2 1 2 5 0 0 0 0 0 0

acara 1 2 1 1 0 4 0.097 0.097 0.194 0.097 0.097 0

seminar 2 1 1 2 1 5 0 0 0 0 0 0

usulan 2 0 2 2 2 4 0.097 0.194 0 0.194 0.194 0.194penelitian 2 2 2 2 2 5 0 0 0 0 0 0

bertempat 1 1 1 1 1 5 0 0 0 0 0 0

ruang 2 1 2 2 2 5 0 0 0 0 0 0

sidang 1 0 1 0 1 3 0.222 0.222 0 0.222 0 0.222

jurusan 1 2 0 1 0 3 0.222 0.222 0.444 0 0.222 0

fak 1 0 0 0 0 1 0.699 0.699 0 0 0 0

teknik 1 1 1 1 0 4 0.097 0.097 0.097 0.097 0.097 0

diadakan 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0

evaluasi 1 1 1 0 2 4 0.097 0.097 0.097 0.097 0 0.194

nilai 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0

diberlakukan 1 1 0 1 0 3 0.222 0.222 0.222 0 0.222 0

mengikuti 0 1 1 2 1 4 0.097 0 0.097 0.097 0.194 0.097

peraturan 0 1 2 1 2 4 0.097 0 0.097 0.194 0.097 0.194

pemerintah 0 1 0 2 1 3 0.222 0 0.222 0 0.444 0.222

pegawai 0 1 1 1 1 4 0.097 0 0.097 0.097 0.097 0.097

TERMTF

DF IDFW = tf * idf

Tabel 7. Perhitungan Cosine Measure

K12

K22

K32

K42

K52

Q x K1 Q x K2 Q x K3 Q x K4 Q x K5

berita 0 0 0 0 0 0 0 0 0 0 0

acara 0 0.01 0.04 0.01 0.01 0 0 0 0 0 0

seminar 0 0 0 0 0 0 0 0 0 0 0

usulan 0 0.04 0 0.04 0.04 0.04 0 0 0 0 0

penelitian 0 0 0 0 0 0 0 0 0 0 0bertempat 0 0 0 0 0 0 0 0 0 0 0

ruang 0 0 0 0 0 0 0 0 0 0 0

sidang 0 0.05 0 0.05 0 0.05 0 0 0 0 0

jurusan 0 0.05 0.2 0 0.05 0 0 0 0 0 0

fak 0 0.49 0 0 0 0 0 0 0 0 0

teknik 0 0.01 0.01 0.01 0.01 0 0 0 0 0 0

diadakan 0 0.16 0.16 0 0 0 0 0 0 0 0

evaluasi 0 0.01 0.01 0.01 0 0.04 0 0 0 0 0

nilai 0 0.16 0.16 0 0 0 0 0 0 0 0

dibe rlakukan 0.049 0.05 0.05 0 0.05 0 0.0024 0.002 0 0.0024 0

mengikuti 0 0 0.01 0.01 0.04 0.01 0 0 0 0 0

peraturan 0.009 0 0.01 0.04 0.01 0.04 0 9E-05 0.0004 9E-05 0.0004pemerintah 0.049 0 0.05 0 0.2 0.05 0 0.002 0 0.0097 0.0024

pegawai 0.009 0 0.01 0.01 0.01 0.01 0 9E-05 9E-05 9E-05 9E-05

SUM 0.117 1.019 0.697 0.171 0.408 0.230 0.002 0.005 0.000 0.012 0.003

SQRT 0.342 1.009 0.835 0.414 0.639 0.479 0.049 0.071 0.021 0.111 0.054

0.002 0.007 0.003 0.030 0.012Cosine

TERMW = tf * idf

Q2

QK

5/23/2018 04d3e3bb011039f40f6146c307f983cd

11/15

Character

Recognizing

Image File

Preprocessing

Extract Text From Image

Scanning

Document

Document Paper

Text Result

Tokenizing

Filtering

PreProcessing

Text Mining

NewD

oc

Training

Training Data

Document

Value

Metadata

Information

Vektor -Space

Model

Information

Needed

Database

Information

Image

Documnet

Text Query

(Searching)

Management Database

DOCUMENT CLASSIFICATION

PROCESS

Database

Case Folding

StopList

Term

Frequency -

Inverse

Document

Frequency (TF-

IDF)

Gambar 1. Gambaran sistem secara umum

Gambar 2. Use Case Diagram Sistem

5/23/2018 04d3e3bb011039f40f6146c307f983cd

12/15

Gambar 3 Use Case Pelatihan / Training

Gambar 4. Use Case Klasifikasi

5/23/2018 04d3e3bb011039f40f6146c307f983cd

13/15

Gambar 5. Activity Diagram

5/23/2018 04d3e3bb011039f40f6146c307f983cd

14/15

Gambar 6. Menu Utama

Gambar 7. Form Training Dokumen

5/23/2018 04d3e3bb011039f40f6146c307f983cd

15/15

Gambar 8. Form Klasifikasi Dokumen

Gambar 9. Form Pencarian Kembali Dokumen

04d3e3bb011039f40f6146c307f983cd

Documents

idf and thevector space

menerapkan metode text

inverse document frequency

idf melakukan pemberian

kombalai besar pengkajian

klasifikasi menggunakan

vector space model

bertujuan untuk merancang