04d3e3bb011039f40f6146c307f983cd

Upload: munifsyahrul

Post on 13-Oct-2015

2 views

Category:

Documents


0 download

DESCRIPTION

fujfj

TRANSCRIPT

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    1/15

    KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN

    ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY

    DAN VECTOR SPACE MODEL

    MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE

    OFFICE OF TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY

    AND VECTOR SPACE MODEL

    Herman 1, Andani Achmad 2, Amil Ahmad Ilham 2

    1Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,Kementerian Komunikasi dan Informatika

    2Jurusan Elektro, Prodi Informatika, Fakultas Teknik, Universitas Hasanuddin

    Alamat Korespondensi:

    Herman, S.Kom

    Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,Kementerian Komunikasi dan InformatikaMakassar. Sulawesi Selatan.HP: 08219200121

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    2/15

    Email: [email protected]

    ABSTRAK

    Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas

    dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskahdinas. Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma termfrequency inverse document frequency (TF-IDF) dan vector space model. Metode text mining menggunakan

    teks di dokumen untuk menentukan kata kunci. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata

    kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang

    tersedia. Implementasi sistem ini melakukan pembelajaran untuk mendapatkan model dari setiap kategori

    sehingga pada saat klasifikasi menggunakan model tersebut untuk dibandingkan dengan data uji. Hasilpenelitian ini menunjukkan bahwa perbedaan jumlah data training mempengaruhi akurasi klasifikasi dokumen.

    Faktor fisik dokumen dan hasil pembacaan optical character recognition (OCR) juga menjadi factor yang dapatmempengaruhi akurasi klasifikasi dokumen.

    Kata kunci : Klasifikasi dokumen, naskah dinas, TF-IDF, vector space model.

    ABSTRACT

    The aims of the study were to design and implement a classification system of documents with many categories

    of services to facilitate storage and retrieval of documents in the office script. The method of study was a textmining a supervised leraning algorithm of the term frequency - inverse document frequency (TF-IDF) and the

    vector space model. Text mining method used the text in the document to determine the key word. TF-IDFalgorithm to assigned weighting on every keyword on every category and vector space model to seek similarities

    of keywords with in the available category.The implementation of the system is the learning process of findingsuch a model in every category so that during classification, the model is used to compare with the comparedata. These results of the research indicated that the differences of training data number influenced document

    classification accuracy. Document physical factor and the result of optical character recognition (OCR) was

    also a factor which can influence the document classification accuracy.

    Key words: Documents classification, official script, TF-IDF, vector space model.

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    3/15

    PENDAHULUAN

    Dalam puluhan tahun terakhir, jumlah dokumen semakin lama semakin bertambah

    banyak dan beragam. Jika jumlah dokumen semakin bertambah banyak maka proses

    pencarian dan penyajian dokumen menjadi lebih sukar / sulit, sehingga akan lebih mudah jika

    dokumen tersebut sudah tersedia sesuai dengan kategorinya masing-masing. Sebagai

    konsekuensi, sangatlah penting untuk bisa mengorganisir dan mengklasifikasi dokumen

    secara otomatis.

    Klasifikasi dokumen teks adalah permasalahan yang mendasar dan penting. Didalam

    dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan

    bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu,

    permasalahan ini merupakan masalah yang cukup kompleks dikarenakan penggunaan bahasa

    alami tersebut. Salah satu dari beberapa metode yang dapat digunakan dalam tujuan untuk

    mengklasifikasikan dokumen, dimulai dari pengelolaan dokumen teks dengan menggunakan

    metode text mining dan mengklasifikasikan dokumen menggunakan algoritma Term

    Frequency Inversed Document Frequency (TF-IDF) serta Vector Space Model.

    Kenyataan masih banyaknya instansi pemerintah baik lembaga negara, pemerintah

    pusat dan daerah, perguruan tinggi negeri serta BUMN/D yang belum sepenuhnya

    melaksanakan pedoman tata naskah dinas khususnya dalam mengklasifikasikan naskah dinas

    sesuai dengan kategori yang secara umum telah diatur pada Peraturan Menteri Negara

    Pemberdayaan Aparatur Negara (PERMENPAN) nomor 22 tahun 2008 tentang Pedoman

    Umum Tata Naskah Dinas.

    Berdasarkan hal tersebut, penulis akan melakukan penelitian dokumen naskah dinas

    secara otomatis.

    Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi dokumen

    naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam pencarian

    dokumen naskah dinasdan mengetahui tingkat akurasi hasil klasifikasi dengan metode TF-IDF dan Vector Space Model dalam mengklasifikasikan dokumen naskah dinas

    METODE PENELITIAN

    Rancangan Sistem

    Pada penelitian ini berfokus pada bagaimana mengimplementasikan sistem klasifikasi

    secara otomatis. Sistem secara umum dapat dilihat pada gambar 1berikut yaitu sistem ini

    bekerja dimulai dari dokumen yang masih dalam bentuk fisik (kertas) di scan menggunakan

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    4/15

    media scanner untuk di konversi ke dalam bentuk file berbasis teks (*.txt) ataupun

    mengekstrak file yang telah di digitalkan dalam bentuk image menggunakan teknik OCR

    (Optical Character Recognizing), kemudian hasilnya dilakukan proses text mining, yang

    meliputi proses case folding, tokenizing dan filtering menggunakan stoplist. Setelah itu term

    yang dihasilkan dilakukan proses pembobotan atas frekuensi kemunculannya dengan

    algoritma TF IDF, yang selanjutnya akan dilakukan pencarian kemiripan dengan algoritma

    Vector Space Model. Ketika hasil similiarity / kemiripan diperoleh maka akan dilakukan

    pemeringkatan berdasarkan bobotnya, dimana bobot yang tertinggi adalah yang diasumsikan

    sebagai hasil klasifikasi.

    Pemodelan Sistem

    Use Case Diagram

    Pada sistem ini terdapat dua aktor yaitu user. Ketika pertama kali menjalankan sistem,

    user melakukan login sesuai dengan hak yang diperolehnya. Kemudian user dapat

    mengupload dokumen dalam bentuk image yang telah diketahui kategorinya dan melakukan

    proses pembelajaran. Selanjutnya user dapat melakukan klasifikasi dokumen yang belum

    diketahui kategorinya dan sistem mengklasifikasikan secara otomatis berdasarkan kategori

    yang ada. User juga dapat mencari dan melihat hasil klasifikasi dokumen yang telah

    tersimpan seperti yang terlihat pada gambar 2,3,4,5. ,Pressman, R (2002), Suhendar.,Gunadi,

    H. (2002), Sommerville, I. (2003).

    Activity Diagram

    Pada gambar 5, Pressman, R (2002), Suhendar.,Gunadi, H. (2002) activity diagram

    diperlihatkan aktivitas yang dilakukan user yaitu proses desain diawali memilih menu

    training untuk melakukan pelatihan pada sistem, menu klasifikasi untuk menguji sistem

    dalam mengklasifikasikan dokumen naskah dinas dan menu searching untuk melakukan

    pencarian sesuai dengan kata kunci untuk menemukan dokumen yang relevan.

    Rancangan Interface

    Pada rancangan interface, untuk menu training dan klasifikasi semua dimulai dari

    mengupload file image yang akan dikonversi menjadi teks dan dilakukan proses untuk

    memperoleh kata kunci, dimana kata kunci tersebut yang menjadi dasar dalam perhitungan

    untuk mengklasifikasikan dokumen naskah dinas seperti yang terlihat pada gambar 6,7,8,9.

    HASIL

    Hasil implementasi metode text klasifikasi dokumen naskah dinas terdiri dari 2 (dua)

    tugas utama yaitu klasifikasi dokumen dan retrival dokumen. Pada bagian klasifikasi terdapat

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    5/15

    2 (dua) proses baik training maupun klasifikasi dengan menggunakan metode text mining,

    TF-IDF dan Vector Space Model.

    Hasil pengujian klasifikasi terhadap dokumen yang telah sebelumnya dilakukan telah

    dilakukan proses training ternyata mampu mengklasifikasikan semua dokumen dengan benar.

    Namun untuk hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

    training sebelumnya hanya mampu menghasilkan tingkat akurasi dalam klasifikasi dokumen

    di kisaran 70 80%. Pengujian yang dilakukan mencoba mengukur tingkat akurasi

    berdasarkan jumlah data training. Hasil pengujian klasifikasi dokumen menunjukkan bahwa

    jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen

    yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk

    fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi,

    hal ini dapat terlihat pada tabel 1,2,3,4.

    Pengujian Tingkat Akurasi Algoritma

    Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

    masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

    yang masing-masing kategori terdiri dari 10 dokumen yang telah digunakan untuk dilatih

    sepenuhnya adalah seluruh klasifikasi 100% benar, seperti pada tabel 1.

    Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

    masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

    yang masing-masing kategori terdiri dari 10 dokumen yang belum pernah dilatih

    sebelumnya,dapat dilihat pada tabel 2.

    Pada skenario ini, penulis melakukan pengujian klasifikasi seperti pada skenario 2

    tetapi dengan meningkatkan jumlah data pembelajaran / latih., dapat dilihat pada tabel. 3

    Hasil pengujian terhadap 20 dokumen uji dengan jumlah data latih yang berbeda,

    dimana jumlah data latih terus ditambah menghasilkan adanya peningkatan hasil klasifikasi

    dari 70% menjadi 75%, dapat dilihat pada tabel 4.

    Namun disamping itu juga terdapat faktor lain yang turut mempengaruhi hasil

    klasifikasi yaitu dokumen fisik naskah dinas yang dapat menghasilkan karakter-karakter yang

    tidak jelas setelah proses ekstraksi teks sehingga bukan hanya menghilangkan kata kunci

    yang dibutuhkan untuk proses klasifikasi tetapi menambah kata kunci baru yang tidak

    dibutuhkan yang hanya menambah panjang waktu komputasi / perhitungan, seperti pada

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    6/15

    PEMBAHASAN

    Rancangan dari sistem klasifikasi terdiri dari 5 form utama yaitu form training,

    klasifikasi, stoplist, searching dan print.

    Tahapan-tahapan yang dilakukan dalam klasifikasi adalah proses ekstraksi dokumen,

    melakukan proses text mining dimana diantaranya proses case folding, tokenizing dan

    filtering. Setelah itu dilakukan proses pembobotan menggunakan algoritma term frequency

    dan menghitung inversed document frequency.

    Perbedaan pada tahap training dan klasifikasi terletak pada perhitungan cosine. Pada

    tahap training proses dilakukan dari ekstraksi gambar ke teks kemudian pengolahan teks

    menjadi kata kunci kemudian menghitung nilai setiap kata kunci sampai dengan pembobotan

    setiap kata kunci pada setiap kategori setelah itu dismpan kedalam database yang dijadikan

    sebagai model pembelajaran.

    Kemudian pada proses klasifikasi, pada tahap preprocessing baik ekstraksi gambar ke

    teks dan proses text mining diperlakukan sama dengan tahap training namun setelah

    memperoleh kata kunci dari dokumen tersebut maka proses penentuan kategorinya dimulai

    dengan mencari kata kunci yang sama yang tersimpan pada database, untuk kemudian

    dihitung bobot antara jumlah dari bobot semua kata kunci pada suatu kategori dengan jumlah

    bobot dari kata kunci yang ada pada database, ini dapat terlihat seperti pada tabel 6 dan 7.

    KESIMPULAN DAN SARAN

    Berdasarkan hasil penelitian maka dapat disimpulkan bahwa Klasifikasi dokumen

    menggunakan algoritma TF-IDF dan vector space model mampu mengklasifikasikan

    dokumen naskah dinas dengan banyak kategori. Hasil pengujian klasifikasi terhadap

    dokumen yang telah dilakukan training sebelumnya mampu mengklasifikasikan dokumen

    dengan akurat. Hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

    training sebelumnya menghasilkan tingkat akurasi di kisaran 70 80%. Hasil pengujian

    klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi

    klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi

    ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap

    data training maupun hasil klasifikasi. Hasil dari proyek akhir ini belum sempurna, oleh

    karenanya untuk meningkatkan hasil yang dicapai dapat dilakukan diharapkan untuk

    menggunakan sistem ekstraksi teks (OCR ) yang yang lebih lengkap dalam mendeteksi hasil

    karakter baik hasil ketikan maupun tulisan tangan sehingga didapatkan hasil pembacaan yang

    lebih baik dalam pengklasifikasian dokumen naskah dinas. Perlunya dikembangkan suatu

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    7/15

    sistem untuk perbaikan hasil pembacaan secara otomatis yang dapat diintegrasikan dengan

    sistem ini sehingga dapat menghasilkan tingkat akurasi klasifikasi yang lebih baik.

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    8/15

    DAFTAR PUSTAKA

    Arief, Achmad Fauzi. (2010).Perangkat Lunak Pengkonversi Teks Tulisan Tangan Menjadi

    Teks Digital.Aunurokhman, Ahmad Hatta (2010). Digital Documents Management System Using Text

    mining.Basnur, P. W., & Sensuse, D. I. (April 2010). Pengklasifikasian Otomatis Berbasis Ontologi

    Untuk Artikel Berita Berbahasa Indonesia. Makara, Teknologi, Vol. 14, No.2 , 29-35.Chenometh, Megan, Song, Min (2009) Text Categorization, dalam Encyclopedia of Data

    Warehouse & Data Mining, IGI Global, hal. 1936-1941

    Hariyanto, Bambang. (2000)Pengarsipan dan Akses pada Sistem Berkas. Februari Bandung :

    Informatika.

    Hasibuan, Z. A. (2007). Metodologi Penelitian Pada Bidang Ilmu Komputer dan Teknologi

    Informasi. Makassar.

    Kurniadi, Adi. (2002).Pemrograman Microsoft Visual Basic 6.0. Jakarta: Elex Media.

    Koswara Eko. (2011), Visual Basic 6 Beginner Guide, Mediakom, Yokyakarta.

    Kristanto, A. (2003). Perancangan Sistem Informasi dan Aplikasinya. Gava Media,

    Yogyakarta.

    M. Nazir. (1988)Metode Penelitian. Jakarta: PT. Ghalia Indonesia.Oktanty, Rhizzajian. (2010). Design Structure Of Information System Decree In Faculty Of

    Information Techonology.

    Umar, Husein. (2008) Metode Penelitian untuk Skripsi dan Tesis Bisnis. PT. RajagrafindoPersada.

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    9/15

    Tabel 1. Hasil Klasifikasi menggunakan Dokumen yang telah dilatih sebelumnya.

    DATA UJIKLASIFIKASI

    BENARPERSENTASE

    20 20 100 %

    Tabel 2. Hasil Klasifikasi menggunakan Dokumen yang belum dilatih sebelumnya.

    DATA UJIKLASIFIKASI

    BENARPERSENTASE

    20 14 70 %

    Tabel 3. Jumlah data latih yang akan digunakan untuk skenario 3.

    KATEGORIJUMLAH DATA

    LATIH (P1)

    JUMLAH DATA

    LATIH (P2)

    JUMLAH DATA

    LATIH (P3)

    Surat Edaran 10 15 20

    Surat Perintah / Tugas 10 15 20Surat Pengantar 10 15 20

    Nota Dinas 10 15 20

    Berita Acara 10 15 20

    JUMLAH 50 75 100

    Tabel 4. Hasil Rekapitulasi Pengujian Klasifikasi dokumen

    DATA

    LATIHDATA UJI

    KLASIFIKASI

    BENARPERSENTASE

    50 20 14 70 %

    75 20 15 75 %

    100 20 15 75 %

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    10/15

    Tabel 6. Perhitungan TF, IDF dan W

    K1 K2 K3 K4 K5 K1 K2 K3 K4 K5

    berita 1 1 2 1 2 5 0 0 0 0 0 0

    acara 1 2 1 1 0 4 0.097 0.097 0.194 0.097 0.097 0

    seminar 2 1 1 2 1 5 0 0 0 0 0 0

    usulan 2 0 2 2 2 4 0.097 0.194 0 0.194 0.194 0.194penelitian 2 2 2 2 2 5 0 0 0 0 0 0

    bertempat 1 1 1 1 1 5 0 0 0 0 0 0

    ruang 2 1 2 2 2 5 0 0 0 0 0 0

    sidang 1 0 1 0 1 3 0.222 0.222 0 0.222 0 0.222

    jurusan 1 2 0 1 0 3 0.222 0.222 0.444 0 0.222 0

    fak 1 0 0 0 0 1 0.699 0.699 0 0 0 0

    teknik 1 1 1 1 0 4 0.097 0.097 0.097 0.097 0.097 0

    diadakan 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0

    evaluasi 1 1 1 0 2 4 0.097 0.097 0.097 0.097 0 0.194

    nilai 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0

    diberlakukan 1 1 0 1 0 3 0.222 0.222 0.222 0 0.222 0

    mengikuti 0 1 1 2 1 4 0.097 0 0.097 0.097 0.194 0.097

    peraturan 0 1 2 1 2 4 0.097 0 0.097 0.194 0.097 0.194

    pemerintah 0 1 0 2 1 3 0.222 0 0.222 0 0.444 0.222

    pegawai 0 1 1 1 1 4 0.097 0 0.097 0.097 0.097 0.097

    TERMTF

    DF IDFW = tf * idf

    Tabel 7. Perhitungan Cosine Measure

    K12

    K22

    K32

    K42

    K52

    Q x K1 Q x K2 Q x K3 Q x K4 Q x K5

    berita 0 0 0 0 0 0 0 0 0 0 0

    acara 0 0.01 0.04 0.01 0.01 0 0 0 0 0 0

    seminar 0 0 0 0 0 0 0 0 0 0 0

    usulan 0 0.04 0 0.04 0.04 0.04 0 0 0 0 0

    penelitian 0 0 0 0 0 0 0 0 0 0 0bertempat 0 0 0 0 0 0 0 0 0 0 0

    ruang 0 0 0 0 0 0 0 0 0 0 0

    sidang 0 0.05 0 0.05 0 0.05 0 0 0 0 0

    jurusan 0 0.05 0.2 0 0.05 0 0 0 0 0 0

    fak 0 0.49 0 0 0 0 0 0 0 0 0

    teknik 0 0.01 0.01 0.01 0.01 0 0 0 0 0 0

    diadakan 0 0.16 0.16 0 0 0 0 0 0 0 0

    evaluasi 0 0.01 0.01 0.01 0 0.04 0 0 0 0 0

    nilai 0 0.16 0.16 0 0 0 0 0 0 0 0

    dibe rlakukan 0.049 0.05 0.05 0 0.05 0 0.0024 0.002 0 0.0024 0

    mengikuti 0 0 0.01 0.01 0.04 0.01 0 0 0 0 0

    peraturan 0.009 0 0.01 0.04 0.01 0.04 0 9E-05 0.0004 9E-05 0.0004pemerintah 0.049 0 0.05 0 0.2 0.05 0 0.002 0 0.0097 0.0024

    pegawai 0.009 0 0.01 0.01 0.01 0.01 0 9E-05 9E-05 9E-05 9E-05

    SUM 0.117 1.019 0.697 0.171 0.408 0.230 0.002 0.005 0.000 0.012 0.003

    SQRT 0.342 1.009 0.835 0.414 0.639 0.479 0.049 0.071 0.021 0.111 0.054

    0.002 0.007 0.003 0.030 0.012Cosine

    TERMW = tf * idf

    Q2

    QK

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    11/15

    Character

    Recognizing

    Image File

    Preprocessing

    Extract Text From Image

    Scanning

    Document

    Document Paper

    Text Result

    Tokenizing

    Filtering

    PreProcessing

    Text Mining

    NewD

    oc

    Training

    Training Data

    Document

    Value

    Metadata

    Information

    Vektor -Space

    Model

    Information

    Needed

    Database

    Information

    Image

    Documnet

    Text Query

    (Searching)

    Management Database

    DOCUMENT CLASSIFICATION

    PROCESS

    Database

    Case Folding

    StopList

    Term

    Frequency -

    Inverse

    Document

    Frequency (TF-

    IDF)

    Gambar 1. Gambaran sistem secara umum

    Gambar 2. Use Case Diagram Sistem

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    12/15

    Gambar 3 Use Case Pelatihan / Training

    Gambar 4. Use Case Klasifikasi

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    13/15

    Gambar 5. Activity Diagram

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    14/15

    Gambar 6. Menu Utama

    Gambar 7. Form Training Dokumen

  • 5/23/2018 04d3e3bb011039f40f6146c307f983cd

    15/15

    Gambar 8. Form Klasifikasi Dokumen

    Gambar 9. Form Pencarian Kembali Dokumen