pemodelan data runtun waktu : kasus data color teknik ...€¦ · pemodelan data runtun waktu :...
TRANSCRIPT
Pemodelan Data Runtun Waktu : Kasus Data Color
Teknik Peramalan
Oleh:
Veny Miko Ningtyas (662016002)
Yohanes Visher Laja Jaja (662016013)
Anggita Mega Kusumawati (662016022)
Program Studi Matematika, Fakultas Sains dan Matematika
Universitas Kristen Satya Wacana, Salatiga
Abstrak
Dalam kehidupan sehari-hari pasti akan terjadi peristiwa-peristiwa yang
berubah-ubah. Teknik peramalan digunakan untuk mengetahui atau
memprediksi tentang hal tersebut dan untuk mengantisipasi hal-hal atau
kejadian-kejadian yang mungkin terjadi. Makalah ini menjelaskan cara
memodelkan data “Color” dengan model AR. Hal itu dilakukan dengan
mendiagnosis data “Color” dan memprediksi dengan model AR(1) dan
AR(2). Model AR tersebut digunakan untuk memperoleh model terbaik
dengan melihat nilai aic yang terkecil. Setelah mendapatkan model terbaik
maka dapat dilakukan prediksi untuk beberapa langkah ke depan.
Kata Kunci : Teknik Peramalan, Diagnosis, Prediksi
A. Pendahuluan
Dalam kehidupan sehari-hari pasti akan terjadi peristiwa-peristiwa yang berubah-
ubah. Contohnya dalam hal cuaca adalah curah hujan, atau dalam bidang ekonomi adalah
rata-rata penjualan. Untuk mengetahui atau memperdiksi tentang hal tersebut kita bisa
menggunakan teknik peramalan. Dari hasil teknik peramalan tersebut kita bisa
mengantisipasi hal-hal atau kejadian-kejadian yang mungkin terjadi. Pada makalah ini,
akan dibahas mengenai peramalan dengan model data runtun waktu. Dari model data
runtun waktu akan dibahas juga mengenai AR, MA, dan ARIMA untuk mengetahui jenis
data yang dianalisis. Setelah diketahui model datanya maka data tersebut akan dianalisis
diagnosisnya dan selanjutnya data tersebut dapat diramalkan untuk berapa langkah atau
beberapa tahun depan sesuai yang diinginkan.
B. Dasar Teori
Dasar teori yang digunakan dalam makalah ini adalah teori-teori runtun waktu yaitu
Data Stationer dan Non Stationer, Fungsi Autokorelasi Sampel (ACF), Fungsi
Autokorelasi Sampel Parsial (PACF), Model AR, Model MA, Model ARIMA.
n
n 2
k
Data Statinoer dan Non Stationer
Data Stationer merupakan data yang tidak terdapat perubahan yang drastis
atau fluktasi data berada disekitar nilai rata-rata yang konstan atau tidak
bergantung pada waktu dan variansinya. Data time series bisa disebut stationer
jika rata-rata dan variansnya konstan, tidak ada unsur trend dan tidak ada unsur
musiman.
Untuk data yang tidak stationer maka perlu dilakukan modifikasi untuk
menstationerkannya. Cara yang sering dipakai untuk menstationerkan data adalah
dengan differencing (metode pembeda). Selain itu, untuk melihat data stationer
juga bisa dilihat dari plot data atau dari bentuk difference nya. Proses difference
sendiri bisa dilakukan dengan mengurangi suatu data dengan data sebelumnya.
Fungsi Autokorelasi Sampel (ACF)
Autokorelasi sampel merupakan relasi antara data runtun waktu. Jika
diberikan sembarang data runtun waktu Y1, Y2 , , Yn dengan mengasumsikan
bahwa data tersebut telah stasioner, akan dapat diestimasi fungsi autokorelasi
untuk berbagai lag k 1, 2, .
Cara yang sederhana untuk melakukan hal ini dengan menghitung korelasi
sampel untuk pasangan Y1,Y1k ,Y2 ,Y2k ,,Yn ,Ynk . Fungsi autokorelasi sampe
rk didefinisikan sebagai berikut :
Yt Y Yt k
Y r
t k 1
Yt Y t 1
Fungsi Autokorelasi Sampel Parsial (PACF)
Fungsi Autokorelasi Sampe Parsial (PACF) pada lag- k adalah korelasi di
antara X t
dan X t k setelah dependensi linear antara X
t dan X
t k variabel antara
X t 1 , X t 2 ,, X t k 1 dihapus (Dedi Rosadi, 2011: 31). Autokorelasi Sampe
Parsial digunakan untuk mengukur tingkat keeratan (association) antara X t
dan
X t k
, apabila pengaruh dari time lag 1,2,3,, dan seterusnya sampai
k 1 dianggap terpisah (Makridakis, 1995: 345). Diperoleh estimasi dari fungsi
autokorelasi parsial untuk lag
berikut:
k 1,2,3, yang dinotasikan dengan kk sebagai
kk Corr Y
t
1Y
t1
2Y
t2
k1Y
tk ,Y
tk
1Y
tk1
sY
tk2
k1Y
t1
t
t t
Model Autoregressive (AR)
Autoregressive (AR) merupakan bentuk regresi yang tidak menghubungkan
variabel tak bebas, tetapi menghubungkan nilai-nilai sebelumnya pada time lag
(selang waktu) yang berbeda-beda. AR akan menyatakan ramalan sebagai fungsi
nilai sebelumnya dari time series tertentu.
Model AR pada orde ke- p dapat ditulis sebagai AR (p) yang bentuk umumnya
adalah:
dengan :
X t
X t
1 X
t 1
p X
t p
t
: Nilai variabel pada waktu ke- t ,
1
X t 1
, X t p
t
: Yang bersangkutan pada waktu t 1,
: Nilai masa lalu time series,
: Nilai error pada waktu ke- t ,
t 2, , t p ,
p : Order AR.
Model Moving Average (MA)
Moving Average (MA) merupakan metode peramalan yang menghitung rata-
rata suatu nilai runtut waktu yang digunakan untuk memperkirakan nilai pada
periode selanjutnya. Menurut Wei (2006: 47), model Moving Average dengan
order q dinotasikan MA ( q ) didefinisikan sebagai:
dengan,
X t t 1 t 1 2 t 2 q t q ; t ~ N 0, 2
X t
t ,
t 1 ,
t 2 ,
t q
: Nilai variabel pada waktu ke- t ,
: Nilai-nilai dari error pada waktu t ,
t 1,
t 2, ,
t q
dan diasumsikan White Noise dan normal,
i : Koefisien regresi, i : 1, 2, 3, , q ,
t : Nilai error pada waktu ke- t ,
q : Order MA.
Model Autoregressive Moving Average (ARIMA)
Autoregressive Moving Average (ARIMA) sering juga disebut metode runtun
waktu Box-Jenkins, yaitu model yang secara penuh mengabaikan independen
variabel dalam membuat peramalan. Menurut Pankrazt (1998: 99), secara umum
model ARIMA (p,d,q) untuk suatu data time series X t
adalah sebagai berikut :
B1 Bd X B t ; t ~ N 0, 2
1 1 2 t 2 q t
t
Persamaan di atas dapat ditulis menggunakan operator B (backshift), menjadi:
1 B d 1 B
sehingga diperoleh
B p B p X 1 B B 2 B q
1 B d X 1 X X X t
dengan,
1 t 1 2 t 2 p t p t 1 t 1 2 t 2 q t q
X t
: Data observasi ke- t ,
B : Operator back shift,
1 Bd X
t
: Time series yang stasioner pada pembedaan ke- d ,
: Nilai error pada waktu ke-t,
p : Order AR,
d : Order pembedaan,
q : Order MA.
Identifikasi Model
Kestationeran suatu time series juga dapat dilihat dari plot ACF yang
merupakan koefisien autokorelasinya menurun menuju nol dengan cepat, hal itu
biasanya terjadi pada lag ke 2 atau lag ke 3. Bila data tidak stationer maka akan
didiferencekan sampai stationer. Banyaknya diference(d) dapat menentukan nilai
d pada ARIMA(p,d,q).
Model AR dan MA pada time series dapat dilihat dengan melihat grafik ACF
dan PACF. Ketentuannya adalah:
a. Jika terdapat lag autukorelasi sebanyak q yang berbeda dari nol secara
signifikan maka prosesnya adalah MA(q).
b. Jika terdapat lag auokorelasi parsial sebanyak p yang berbeda dari nol secara
signifikan maka prosesnya adalah AR(p).
c. Secara umum jika terdapat lag autokorelasi parial sebanyak p yang berbeda
dari nol secara signifikan, terdapat lag autokorelasi sebanyak q yang berbeda
dari nol secara signifikan dan d diference maka prosesnya adalah
ARIMA(p,d,q).
No Model ACF PACF
1 AR(p) Menurun secara bertahap
menuju ke-0
Menuju 0 setelah lag
ke-p
2 MA(q) Menuju ke-0 setelah lag ke-q Menurun secara
bertahap menuju ke-0
3 ARMA(p,q) Menurun secara bertahap
menuju ke-0
Menurun secara
bertahap menuju ke-0
t l t l
t
t
0
Model Diagnosis
Model diagnosis digunakan untuk menganalisis kelayakan model atau
menganalisis kualitas model yang telah diidentifikasi dan diestimasi. Hal tersebut
dilihat dari seberapa baik model sesuai dengan data. Jika sesuai, maka model
dapat digunakan untuk meramal nilai deret yang akan datang. Sebaliknya, apabila
model tidak sesuai maka dilakukan kembali identifikasi model sampai model yang
diperoleh sesuai dengan data.
Peramalan
Peramalan (forecasting) merupakan prediksi atau perkiraan di masa depan
yang tujuannya untuk mengarahkan aktivitas di masa depan untuk mecapai
tujuan. Peramalan juga merupakan nilai nilai sebuah peubah kepada nilai yang
diketahui peubahnya yang berhubungan. Dimisalkan ada data Y1 ,Y2 ,,Yt 1 dan
akan diprediksi untuk data ke Yt l dengan t adalah forecast origin dan l adalah
lead time sedangkan ramalannya biasa ditulis dengan Y (l) E(Yt l Y1 ,Y2 ,,Yt ) .t
Dengan mempertimbangkan trend determistic maka modelnya Yt t X t
dengan komponen stokastik (Xt) mempunyai rata-rata nol. Hal terebut dapat
diasumsikan bahwa (Xt) white noise. Sehingga Y (l) E ( X ) ataut
Yt (l) t l untuk l 1 . Sedangkan untuk linear trend t 0 1 t dapat ditulis
Y (l) 1
(t l) .
Untuk forecast error et (l) dapat ditulis dengan et (l) X t l sedangkan untuk
forecast error variance dapat ditulis Var(et (l)) Var( X t l ) 0 .
Untuk model AR(1) peramalannya dapat ditulis dengan Y (l) t (Y )t t
sedangkan untuk forecast errornya dapat adalah
variansinya Var(e (1)) 2
et (1) Yt 1 Y (1) et 1
dan
t e
C. Metode Penelitian
Dari data yang diperoleh akan dilakukan spesifikasi model sehingga data tersebut
dapat digunakan. Model yang ditentukan harus dianalisis dan didiagnosis agar bisa
mendapatkan model yang terbaik dan sesuai dengan asumsi awal yang digunakan.
Apabila belum mendapatkan yang terbaik maka akan terus dilakukan diagnosis sampai
mendapatkan model yang terbaik. Setelah mendapatkan model terbaik maka akan
diramalkan untuk beberapa langkah kedepan sesuai keinginan.
D. Hasil dan Pembahasan
a. Model Data
Dari program R dengan menggunakan package “TSA” data “Color” dapat
dipanggil dan dihasilkan output bahwa data “Color” memiliki 35 data yaitu 67 63 76
66 69 71 72 71 72 72 83 87 76 79 74 81 76 77 68 68 74 68 69 75 80 81 86 86 79 78
77 77 80 76 67. Untuk mengetahui kestationeran dari data “Color”, dapat dilihat dari
plot data tersebut dengan batuan R yang telah dinyatakan pada Gambar 1.
Gambar 1. Plot Data Color
Dari Gambar 1 dapat dilihat bahwa tidak terdapat trend naik maupun turun dan
grafiknya naik turun disekitar rata-rata sehingga data tersebut dapat dikatakan
stationer.
Karena data sudah stationer maka dapat dicari ACF dan PACF-nya dengan
program R sehingga dapat diketahui jenis modelnya.
Untuk mendapatkan grafik ACF dan PACF dapat menggunakan R dan hasilnya
ditunjukkan pada Gambar 2 dan Gambar 3.
Gambar 2. Grafik ACF Data Color
Gambar 3. Grafik PACF Data Color
Dari Gambar 2 dan Gambar 3 dapat disimpulkan bahwa model dari data “Color”
adalah model AR (p) karena pada grafik ACF menurun secara bertahap menuju ke-0
dan grafiknya mengikuti alur grafik sinus sedangkan grafik PACF-nya menuju ke-0
setelah lag ke-p dan setelah lag ke-1 grafiknya menuju ke nol atau PACF terputus
setelah lag ke-1. Untuk itu model yang cocok menurut grafik di atas adalah model
AR(1).
Tetapi untuk menentukan model terbaik dengan membandingkan beberapa model.
Misalnya kita bandingkan model AR(1) dengan model AR(2), untuk model AR(1)
dari R dihasilkan
74.3293, 0.5705 ,
aic 216.15
serta hasil dari koefisien
s.e
dari model AR(1) adalah 0.5705
3.9646 1.96 . Sedangkan untuk model AR(2) 0.1439
dapat
74.1551 ,
1 0.5173
2 0.1005 ,
aic 217.84
serta hasil dari koefisien
s.e
dari model AR(2) adalah 0.1005
0.5537 1.96 . 0.1815
Dari kedua model yang dicoba dapat dilihat bahwa aic pada ARIMA(1,0,0) atau
AR (1) lebih kecil daripada aic pada ARIMA(2,0,0) atau AR(2). Serta hasil bagi dari
koefiesien AR(1) = 3.9646 1.96 . Sehingga dapat disimpulkan bahwa model yang
cocok untuk data “Color” adalah model AR(1). Jadi model untuk data “Color” dapat
ditulis dengan:
X t 0.5705 X t 1 t
b. Diagnosis Data
Setelah didapatkan model yang cocok maka selanjutnya model tersebut dapat
didiagnosis. Dengan menggunakan “tsdiag” didapatkan hasilnya yang ditunjukkan
pada Gambar 4.
Gambar 4. Plot Diagnosis
Dari Gambar 4 dapat dilihat bahwa dalam grafik ACF of Residual setelah lag ke-1
semua garis berada di bawah atau di dalam garis merah yang berarti bahwa tidak ada
korelasi residual diantara semua lag data tersebut.
Dari Gambar 4 dapat dilihat juga bahwa dalam grafik Standardized residual
berkisar antara -2 sampai 2 dan dari grafik p-value nilai p-valuenya berada di bawah
0,05 sehingga dapat menjadi alasan yang cukup bahwa data tersebut berdistribusi
Normal dan saling bebas. Selanjutnya untuk uji residual data dengan Kolmogorov-
Smirnov di R didapatkan hasil D = 0.078, p-value = 0.9835. Karena p-value >
5% maka dapat disimpulkan bahwa data tersebut berdistribusi normal. Selain itu,
dengan menggunakan tes QQnorm dari R didapatkan grafik yang ditunjukkan pada
Gambar 5.
Gambar 5. Plot QQ-Norm Data Color
Dari Gambar 5 dapat dilihat bahwa plot data tersebut berbentuk hampir linear
atau mendekati garis linear maka data tersebut dapat dikatakan data dengan distribusi
normal.
c. Permalan Data
Dari data color yang dibahas dengan model AR(1) disini akan diramalkan
tentang data Color untuk 10 langkah ke depan. Dengan menggunakan program R
diperoleh prediksi berserta nilai standart error-nya yang dinyatakan dalam Tabel 1.
Hasil prediksi tersebut juga dapat dinyatakan dalam plot beserta batas prediksinya
dengan koefisien kepercayaan 95% pada Gambar 6.
Tabel 1. Tabel hasil prediksi berdasarkan model AR(1)
67 63 76 66 69 71 72 71 72 72
Prediksi 70.14757 71.94342 72.96803 73.55262 73.88616 74.07646 74.18503 74.24698 74.28232 74.30249
S.E 4.983379 5.737436 5.962361 6.033771 6.056835 6.064324 6.066760 6.067553 6.067811 6.067895
Gambar 6. Grafik Peramalan
E. Kesimpulan
Makalah ini telah menjelaskan mengenai peramalan model runtun waktu untuk data
musiman. Model yang sesuai dengan data runtun waktu tersebut yaitu model AR(1).
Pemodelan yang digambarkan pada makalah ini terbatas pada model AR sehingga
diperlukan penelitian lagi untuk membahas AR model lain.
F. Daftar Pustaka
Atin. 17 Desember 2011. ARIMA (Autoregrresive Average) Integrated Moving. Web:
http://atinmbems.blogspot.com/2011/12/arima-autoregressive-integrated-
moving.html?m=1 .
Cryer, J. D. dan Kung-Sik Chan, 2008, Time Series Analysis with Application in R, Springer,
New York.
Setiawan, Adi. Pemodelan Data Runtun Waktu : Kasus Data Tingkat Pengangguran
di Amerika Serikat pada Tahun 1948 – 1978.. UKSW, Salatiga
Setiawan, Adi. Pemodelan Data Runtuk Waktu Pada Data Produksi Susu Sapi Di Amerika
Sejak Tahun 1962 – 1975. Uksw, Salatiga
Syahrir. Metode Autoregresssive Integrated Moving Average (ARIMA).Yogyakarta. Web:
http://www.acedemia.edu/34593458/METODE_AUTOREGRESSIVE_INTEGR
ATED_MOVING_AVEERAGE_ARIMA .
Lampiran Program R
1. Memunculkan Data Color
> library(TSA)
> data(color)
> color
Time Series:
Start = 1
End = 35
Frequency = 1
[1] 67 63 76 66 69 71 72 71 72 72 83 87 76 79 74 81 76 77 68 68 74 68 69 75 80 81 86 86 79 78 77
[32] 77 80 76 67
2. Plot Data Color
> plot(color, type="b")
3. Plot ACF Data Color
> acf(color)
4. Plot PACF Data Color
> pacf(color)
5. Menentukan Model
a. Model AR(1)
> model1=arima(x= color, orde=c(1,0,0)); > model1
Call:
arima(x = color, order = c(1, 0, 0))
Coefficients:
ar1 intercept
0.5705 74.3293
s.e. 0.1435 1.9151
sigma^2 estimated as 24.83: log likelihood = -106.07, aic = 216.15
b. Model AR(2)
> model2=arima(x= color, orde=c(1,2,0)); > model2
Call:
arima(x = color, order = c(2, 0, 0))
Coefficients:
ar1 ar2 intercept
0.5173 0.1005 74.1551
s.e. 0.1717 0.1815 2.1463
sigma^2 estimated as 24.6: log likelihood = -105.92, aic = 217.84
6. Tes Diagnosis
> tsdiag(model1)
> r = resid(model1)
> r
Time Series:
Start = 1
End = 35
Frequency = 1
[1] -6.0192758 -7.1475749 8.1346164 -9.2825052 -0.5770271 -0.2886705 -0.4297661
[8] -2.0003140 -0.4297661 -1.0003140 9.9996860 7.7236601 -5.5585311 3.7174948
[15] -2.9941486 6.8585904 -2.1352443 1.7174948 -7.8530530 -2.7181227 3.2818773
[22] -6.1414096 -1.7181227 3.7113295 5.2880426 3.4353036 7.8647557 5.0120167
[29] -1.9879833 1.0058514 0.5763992 1.1469470 4.1469470 -1.5646964 -8.2825052
> qqnorm(r)
> ks.test(r,"pnorm",mean(r),sd(r))
One-sample Kolmogorov-Smirnov test
data: r
D = 0.078, p-value = 0.9835
alternative hypothesis: two-sided
Warning message:
In ks.test(r, "pnorm", mean(r), sd(r)) :
ties should not be present for the Kolmogorov-Smirnov test
7. Peramalan
> has=predict(model1,n.ahead=10)
> has
$pred
Time Series:
Start = 36
End = 45
Frequency = 1
[1] 70.14757 71.94342 72.96803 73.55262 73.88616 74.07646 74.18503 74.24698
[9] 74.28232 74.30249
$se
Time Series:
Start = 36
End = 45
Frequency = 1
[1] 4.983379 5.737436 5.962361 6.033771 6.056835 6.064324 6.066760 6.067553
[9] 6.067811 6.067895
> BA=has$pred+1.96*has$se
> BB=has$pred-1.96*has$se
> p1=has$pred
> p2=has$se
> plot(color,type="b",xlim=c(0,45),ylim=c(0,100))
> u=seq(36,45,length=10)
> lines(u,p1)
> lines(u,BB,lty=3)
> lines(u,BA,lty=3)