s1-2015-319169-introduction
TRANSCRIPT
-
7/25/2019 S1-2015-319169-introduction
1/6
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Era big data telah menjadi era tantangan bagi semua pihak pengelola data.
Dengan semakin besar kapasitas media penyimpanan dan harga yang semakin
murah, semakin banyak pula hal yang dapat disimpan. Setiap hari 2,5 triliun byte
atau setara 2,5 TB data diproduksi dan 90 persen data di dunia hari ini dibuat pada
dua tahun terakhir (Wu, Zhu, Wu, & Ding, 2014). Untuk menangani masalah ini,
dibutuhkan pengelolaan data dalam jumlah besar yang cepat, real-time , dan handal.
Banyak sekali contoh representasi big data dalam kehidupan sehari-hari.
Pada zaman ini media sosial seperti Twitter memegang peranan penting dalam
penyaluran informasi. Orang-orang menulis pesan, status hingga berbagi gambar,
link , dan opininya melalui media sosial. Setiap detik, beribu-ribu twit yang
diposting menumpuk membentuk big data . Data real-time ini dapat menjadi
berguna jika saja dapat dianalisis untuk menghasilkan informasi, bahkan dapat
diproses lebih lanjut hingga menjadi pengetahuan.
Twitter adalah sebuah media sosial yang mengalami pertumbuhan pesat.
Dengan waktu relatif singkat, Twitter meraih popularitas di seluruh dunia. Pada
-
7/25/2019 S1-2015-319169-introduction
2/6
2
akhir tahun 2010, Twitter diprediksikan mempunyai 175 juta pengguna terdaftar di
seluruh dunia dengan produksi 65 juta twit per harinya (Miller, 2010). Hingga bulan
Januari 2013, tercatat lebih dari 500 juta pengguna yang terdaftar di Twitter. Fakta
ini menjadikan Twitter sebagai media sosial dengan pertumbuhan tercepat sejak
tahun 2006. Setiap harinya pengguna Twitter mengirim rata-rata 250 juta twit, dan
menurut MIT Technology Review (2013), Indonesia menduduki peringkat ketiga
sebagai penyumbang twit terbanyak di bawah Amerika Serikat dan Jepang.
Salah satu tools yang dapat melakukan analisis media sosial adalah
Elasticsearch. Elasticsearch adalah sebuah media penyimpanan ( storage ) dan mesin
pencari ( search engine ) yang mampu menangani data dalam jumlah besar ( big data )
dengan kemampuan near real-time. Bersama dengan Kibana sebagai tools
visualisasinya, Elasticsearch dapat menjadi tools analisis data yang handal;
termasuk untuk menangani data Twitter yang bertambah tiap detik. Dari berbagai
jalur dan tools input yang tersedia saat ini, terdapat dua cara untuk meng input kan
data dari Twitter API ( Application Programming Interface ) ke dalam Elasticsearch.
Cara pertama adalah melalui Twiter River dan cara kedua adalah melalui Logstash
yang disebut ELK (Elasticsearch Logstash Kibana) Stack.
Faktor input menjadi sangat penting karena output sistem bergantung penuh
pada input . Bila data input tidak lengkap dan akurat, dapat dipastikan bahwa output
pun tidak akan akurat. Input memegang peranan penting dalam kinerja sistem
secara keseluruhan. Jika data input mudah diolah (mudah diproses CPU dengan
-
7/25/2019 S1-2015-319169-introduction
3/6
3
konsumsi memori minimal) maka sistem dapat bekerja lebih cepat untuk
memproses data selanjutnya.
Sejalan dengan hal di atas, maka dipandang perlu untuk melakukan sebuah
penelitian yang membandingkan kedua metode input Twitter pada Elasticsearch
tersebut. Penelitian ini dilakukan untuk membandingkan kinerja Twitter River dan
Logstash dalam pemanfaatannya sebagai input Elasticsearch untuk analisis media
sosial Twitter. Hal ini menjadi penting dan patut diteliti sebab pengetahuan
mengenai kelebihan dan kekurangan kedua metode ini dapat mengoptimalkan
kinerja sistem analisis media sosial Twitter secara keseluruhan.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dipaparkan di atas, maka rumusan
masalah yang diangkat pada penelitian ini adalah bahwa dari berbagai cara input ke
Elasticsearch, belum diketahui cara terbaik untuk meng input kan data Twitter dari
Twitter API ke Elasticsearch.
1.3 Batasan Masalah
Beberapa batasan masalah yang digunakan agar pembahasan skripsi ini
fokus dan tidak terlalu meluas antara lain:
1. Perbandingan didasarkan pada kebutuhan sistem untuk memasukkan data
Twitter pada Elasticsearch dan menampilkannya pada Kibana dengan
kepentingan analisis Twitter tetapi tidak membahas analisis Twitter.
-
7/25/2019 S1-2015-319169-introduction
4/6
4
2. Meskipun sistem memang dapat selalu dimonitor secara real time , namun
data Twitter yang digunakan pada penelitian ini adalah data pelatihan yang
diambil melalui Twitter API dalam jangka waktu tertentu.
3. Hal-hal yang dibandingkan dari kedua metode ini adalah:
a. Beban Pemrosesan CPU ( Central Processing Unit ).
b. Penggunaan RAM ( Random Acces Memory ).
c. Penggunaan Disk .
d. Jumlah data Twitter yang di input kan ke Elasticsearch.
e. Jumlah field Twitter yang di input kan ke Elasticsearch.
1.4 Manfaat dan Tujuan Penelitian
Manfaat yang diharapkan dari penelitian ini adalah mengoptimalkan analisis data
Twitter dengan Elasticsearch melalui pengetahuan tentang tools input yang tepat
untuk memasukkan data Twitter dari Twitter API ke Elasticsearch.
Sedangkan tujuan diadakannya penelitian ini adalah:
1. Membangun sebuah sistem analisis media sosial Twitter menggunakan
Elasticsearch dan Kibana dengan input Twitter River dan Logstash.
2. Membandingkan kinerja Twitter River dan Logstash sebagai input
Elasticsearch untuk analisis media sosial Twitter.
-
7/25/2019 S1-2015-319169-introduction
5/6
5
1.5 Sistematika Penulisan
Sistematika penulisan skripsi ini adalah sebagai berikut.
BAB I: PENDAHULUAN
Bab ini menjelaskan latar belakang penelitian, rumusan masalah, batasan
masalah, manfaat dan tujuan penelitian, serta sistematika penulisan.
BAB II: DASAR TEORI
Bab ini menjelaskan penelitian-penelitian lain yang sudah dilakukan dalam
rangka analisis media sosial Twitter dan penelitian mengenai Elasticsearch. Selain
itu dijelaskan juga landasan teori mengenai analisis media sosial, Twitter,
Elasticsearch, Twitter River, Logstash, Kibana dan Marvel, Kopf. Bab ini juga
menjelaskan dasar teori mengenai parameter-parameter pengujian yang akan
digunakan.
BAB III: METODE PENELITIAN
Bab ini menjelaskan alat dan bahan yang dibutuhkan dalam penelitian,
diagram alir penelitian, metode perancangan hingga metode implementasi. Metode
implementasi mencakup instalasi, konfigurasi, pengambilan data hingga metode
pembandingan kinerja.
BAB IV: HASIL DAN PEMBAHASAN
-
7/25/2019 S1-2015-319169-introduction
6/6
6
Bab ini menjelaskan hasil penelitian dengan dua skenario serta
pembahasannya.
BAB V: KESIMPULAN DAN SARAN
Pada bab ini ditulis kesimpulan akhir dari penelitian yang menjawab tujuan
penelitian serta saran untuk penelitian selanjutnya