muli

13
In this chapter, we focus on a special case of the multiple regression model, the polynomial model, which is often interest whenever there is only one basic independent variable (say X) to be consederd. We intianlly considered a straight line model for this situation, however, we might wish determine whether we can significantly improve prediction by increasing the complexity of the fitted straight line model. The simple extension of the straight line model is the second order polynomial, or parabola, which involves a second term, X 2 , in adition to X. The adition of high order terms like X 2 , X 3 , and So on, which are simple functions of a single basic variable, can be considered equivalent to adding new independent variables. Tus, if we renamed X as X 2 as X 2 , the second order model (Dalam bab ini, kita fokus pada kasus khusus dari model regresi berganda, model polinomial, yang sering menarik ketika pernah hanya ada satu variabel independen dasar (katakan X) untuk dipertimbangkan. Kami awalnya dianggap sebagai model garis lurus untuk situasi ini, namun, kami mungkin ingin menentukan apakah kita dapat secara signifikan meningkatkan prediksi dengan meningkatkan kompleksitas dipasang Model garis lurus. Perpanjangan sederhana model garis lurus adalah polinomial kedua order, atau parabola, yang melibatkan kedua istilah, X2, selain X. Penambahan istilah urutan tinggi seperti X2, X3, dan Jadi pada, yang fungsi sederhana variabel dasar tunggal, dapat dianggap setara dengan menambahkan variabel independen baru. Jadi, jika kita mengubah nama X sebagai X2 sebagai X2, model urutan kedua) Would become

Upload: muli

Post on 19-Feb-2016

214 views

Category:

Documents


0 download

DESCRIPTION

fhjmm

TRANSCRIPT

Page 1: Muli

In this chapter, we focus on a special case of the multiple regression model, the polynomial model, which is often interest whenever there is only one basic independent variable (say X) to be consederd. We intianlly considered a straight line model for this situation, however, we might wish determine whether we can significantly improve prediction by increasing the complexity of the fitted straight line model. The simple extension of the straight line model is the second order polynomial, or parabola, which involves a second term, X2, in adition to X. The adition of high order terms like X2, X3, and So on, which are simple functions of a single basic variable, can be considered equivalent to adding new independent variables. Tus, if we renamed X as X2 as X2, the second order model

(Dalam bab ini, kita fokus pada kasus khusus dari model regresi berganda, model polinomial, yang sering menarik ketika pernah hanya ada satu variabel independen dasar (katakan X) untuk dipertimbangkan. Kami awalnya dianggap sebagai model garis lurus untuk situasi ini, namun, kami mungkin ingin menentukan apakah kita dapat secara signifikan meningkatkan prediksi dengan meningkatkan kompleksitas dipasang Model garis lurus. Perpanjangan sederhana model garis lurus adalah polinomial kedua order, atau parabola, yang melibatkan kedua istilah, X2, selain X. Penambahan istilah urutan tinggi seperti X2, X3, dan Jadi pada, yang fungsi sederhana variabel dasar tunggal, dapat dianggap setara dengan menambahkan variabel independen baru. Jadi, jika kita mengubah nama X sebagai X2 sebagai X2, model urutan kedua)

Would become

In general, polynomial models are special cases of the general multiple regression model. However, since only one basic independent variable is being considered, any polymonial model can be represented by curvilinear plot on a tweo dimensional graph (rather than as a surface in higher dimensional space). As mentioned in chapter 5, when there is only one basic independent variable X, the fundamental goal is to find the curve which best fits the data so that the relationship between X and Y is appropriately described. Because a higher order curver may be more appropriate than a straight line, it usually is important to consider fitting such (Polynomial) curves.

(Secara umum, model polinomial adalah kasus khusus dari model regresi berganda umum. Namun, karena hanya satu variabel independen dasar sedang dipertimbangkan, model polinomial dapat diwakili oleh alur lengkung pada grafik dua dimensi (bukan sebagai permukaan dalam ruang dimensi yang lebih tinggi). Seperti disebutkan dalam Bab 5, ketika hanya ada satu dasar variabel X independen, tujuan mendasar adalah untuk menemukan kurva yang terbaik sesuai dengan data sehingga hubungan antara X dan Y dengan tepat dijelaskan. Karena kurva yang

Page 2: Muli

lebih tinggi mungkin lebih tepat daripada garis lurus, biasanya penting untuk mempertimbangkan pas seperti (polinomial) kurva.)

We first consider methods for fitting and evaluating the second order (parabolic) model, after which we consider higher order polynomial models. Since the models are special case of the general multiple regression model, the fitting of these models and the methods for inference are essentially the same as described more generall in chapter 8 and 228.

(Kami pertama mempertimbangkan metode pas dan mengevaluasi urutan kedua (parabola) model, setelah itu kami anggap tatanan yang lebih tinggi model polinomial. Karena model kasus khusus dari model regresi berganda umum, pemasangan model ini dan metode untuk inferensi pada dasarnya sama seperti yang dijelaskan lebih umum dalam bab 8 dan 228.)

Since the independent variables in a polynomial model are functions of the same basic variable (X), they are inherently correlated. This, in turn, can lead to computational difficulties due to collinearty. Fortunately, techniques are variables, such as centering and the use of orthogonal polynomials, which help to remedy such problems, and these proscedures will be discussed later in this chapter, We shall also see that the use of orthogonal polynomials helps to simplify hypothesis testing.

(Karena variabel independen dalam model polinomial adalah fungsi dari variabel dasar yang sama (X), mereka secara inheren berkorelasi. Hal ini, pada gilirannya, dapat menyebabkan kesulitan komputasi karena collinearity. Untungnya, teknik adalah variabel, seperti centering dan penggunaan polinomial orthogonal, yang membantu untuk memperbaiki masalah tersebut, dan prosedur ini akan dibahas kemudian dalam bab ini, Kami juga akan melihat bahwa penggunaan polinomial orthogonal membantu untuk menyederhanakan pengujian hipotesis.)

Polynomial Models

The most general kind of curve usually considered for describing the relationship between a single independent variable X and a response Y is called a polynomial. Mathematically, a Polynomial of order K in x is an expression of the form

(polinomial Model

Jenis yang paling umum dari kurva biasanya dipertimbangkan untuk menggambarkan hubungan antara variabel independen X tunggal dan respon Y disebut polinomial. Secara matematis, sebuah polinomial order K di x adalah ekspresi dari bentuk)

Page 3: Muli

In which the C’s andd K (Which must be nonnegative whole number) are constrants. We have already considered the simple polynomial corresponding to k+ 1 (The straight line having the form . The second order polynomial corresponding to k=2 (the parabola) has the

general form In going from a mathematical model to a statistic model, as we did in the straight line casc, we may write a parabolic model in either of the following forms:

(Di mana C dan K (Yang harus bilangan non negatif) kendala. Kami telah dianggap sebagai polinomial sederhana sesuai dengan k + 1 (Garis lurus memiliki bentuk. Urutan polinomial kedua sesuai dengan k = 2 (parabola) memiliki bentuk umum Dalam pergi dari model matematis untuk model statistik, seperti yang kita lakukan di CASC garis lurus, kita dapat menulis sebuah model parabola di salah satu dari bentuk-bentuk berikut:

In these equations, capital Y’s and X’s denote statiscal variables: denote the unknown parameters called regressions coeficients: denotes the mean of Y at a given X, and E denotes the error component, which represents the defference between the observed response Y at X and the true average response at X.

(Dalam persamaan ini, modal Y dan X menunjukkan variabel statistik: menunjukkan parameter yang tidak diketahui disebut regresi koefisien: menunjukkan rata-rata Y pada X yang diberikan, dan E menunjukkan komponen kesalahan, yang merupakan selisih antara respon diamati Y di X dan respon rata-rata yang benar di X.

If we tentatively assume that a parabolic model as given by either or is appropriate for describing the reletionship between X and , we must then determine a spesific estimated parabola the best fits the data. As in the straight line case, this best fitting parabola may be determined by employing the least squares method as describe in the next section.

(Jika kita ragu-ragu mengasumsikan bahwa model parabola seperti yang diberikan oleh salah satu atau sesuai untuk menggambarkan hubungan antara X dan, kita harus kemudian menentukan diperkirakan parabola khusus yang terbaik sesuai dengan data. Seperti dalam kasus garis lurus, parabola ini terbaik pas dapat ditentukan dengan menggunakan metode kuadrat terkecil sebagai menjelaskan dalam bagian berikutnya.)

Least Square Procedure for Fitting a Parabola

The least square estimates of the parameters : in a parabolic model are chosen so as to minimize the surn of squares of deviations of observed point From corresponding

Page 4: Muli

points on the fitted parabola. Letting : denote the least squares estimates of the unknown regressions coefficient s in the parabolic model, and Letting Y denote the value of the predicted response at X, we can write the estimated parabola as follows:

(Prosedur Least Square untuk Fitting sebuah Parabola

Perkiraan kuadrat terkecil dari parameter: dalam model parabolik dipilih sehingga dapat meminimalkan jumlah kuadrat penyimpangan dari titik yang diamati Dari sesuai titik pada parabola dipasang. Membiarkan: menunjukkan kotak perkiraan paling tidak diketahui regresi koefisien dalam model parabola, dan membiarkan Y menunjukkan nilai respon diprediksi di X, kita dapat menulis parabola diperkirakan sebagai berikut:)

The minimum sum of square obtained using this least squares parabola is:

(Minimum jumlah persegi yang diperoleh menggunakan ini kuadrat terkecil parabola adalah:

As with the general regression model, we do not find it necessary to present the precise formulae for calculating the least squares estimates . These formulae are quite complex and become even more so for polynomials of order higherr than two. The researcher is not likely to employ such polynomial regression methods wihtout using a packaged computer program, which can perform the necessary calculations and print the numerical result. (we have provided in Apendix B a Discussion of matrices and their relationship to regressions analysis, by using matrix mathematics, the general regressions model and the associated least square methodology can be compactly represented).

(Seperti dengan model regresi umum, kita tidak merasa perlu untuk menyajikan formula yang tepat untuk menghitung kuadrat perkiraan setidaknya. Formula ini cukup kompleks dan menjadi bahkan lebih lagi untuk polinomial orde tinggi dari dua. Peneliti tidak mungkin menggunakan metode regresi polinomial tersebut tanpa menggunakan program komputer dikemas, yang dapat melakukan perhitungan yang diperlukan dan mencetak hasil numerik. (kami telah disediakan

Page 5: Muli

dalam Lampiran B Diskusi matriks dan hubungan mereka dengan analisis regresi, dengan menggunakan matriks matematika, regresi model umum dan metodologi persegi setidaknya terkait dapat kompak diwakili).

Example for the age systoolic blood pressure data of the tabel 5-1 with the outlier removed, the least squares estimate for the parabolic regression coefficients are computed to be:

(Misalnya untuk data tekanan darah sistolik usia dari tabel 5-1 dengan outlier dihapus, kotak setidaknya memperkirakan untuk koefisien regresi parabolik dihitung menjadi:

The fitted model given by the becomes

(Model pas diberikan oleh menjadi)

This equations can be ccomparedd with the straight line equation obtained in sections 5-5 for these data with the outlier removed, namely,

(Persamaan ini dapat dibandingkan dengan persamaan garis lurus yang diperoleh di bagian 5-5 untuk data ini dengan outlier dihapus, yaitu,)

When comparing (13.5) to (13,6) , it is important to notice that the estimates of , and are different in the two models, indicating that the estimation of

, affect the estimations of and in the quadratic model.

Anova Table for Second order Polynomial Regrressions

As with the straight line case, the essential result base on a second or higher order polynomial model can be summarized in an ANNOVA Table, The ANNOVA table for a parabolic fit to the age systolic blood pressure data of tabel 5-1 (with the outlier removed) is given in the table.

The contents of table deserve comment. First, only variables added in order tests are described. Naturals Variables orderings suggest themselves , either from the largest to the smallest power of the predictor or vice versa. Consequently, a variables added last test for each term should be avoided with polynominal models, Using variables added in order tests will aid in choosing the most parsimonious yet relevant model possible. Also, all such tests will aid in choosing the

Page 6: Muli

most parsimonious yet relevant model possible. Also, all such tests should utilize the residual from the largets model considered, this notion will be discussed more fully in section.

(Anova Table untuk pesanan Kedua Polinomial Regresi

Seperti halnya garis lurus, yang penting hasil dasar pada model polinomial urutan kedua atau lebih tinggi dapat diringkas dalam Tabel ANOVA, The ANOVA meja untuk cocok parabola ke data tekanan darah sistolik usia dari tabel 5-1 (dengan outlier dihapus) diberikan dalam tabel.

Isi tabel layak komentar. Pertama, hanya variabel ditambahkan dalam tes agar dijelaskan. Naturals Variabel orderings menyarankan diri, baik dari yang terbesar dengan kekuatan terkecil prediktor atau sebaliknya. Akibatnya, sebuah variabel menambahkan tes terakhir untuk setiap istilah harus dihindari dengan model polinomial, Menggunakan variabel ditambahkan dalam tes rangka akan membantu dalam memilih model belum relevan paling pelit mungkin. Juga, semua tes tersebut akan membantu dalam memilih model belum relevan paling pelit mungkin. Juga, semua tes tersebut harus memanfaatkan sisa dari model terbesar dipertimbangkan, gagasan ini akan dibahas lebih lengkap dalam bagian.)

Inferences Associated with seccond order polynomial Regression

There are three basic inferential questions associated with second order polynomial regression. These are as follows:

1. Is the overall regressions significant, that is, is more of the variation in Y explained by the second order model than by ignoring X completely (and just Using Y)?

2. Does the second order model provide significantly more predictive power than that provided by the straight line model?

3. Given that a second orrder model is more appropriate than a straight line model, should

we add higher order terms , to the second order model?

(Kesimpulan Terkait dengan urutan kedua regresi polinomial

Page 7: Muli

Ada tiga pertanyaan inferensial dasar yang terkait dengan regresi polinomial urutan kedua. Ini adalah sebagai berikut:

1. Apakah regresi keseluruhan signifikan, yaitu, lebih dari variasi dalam Y dijelaskan oleh model urutan kedua dari dengan mengabaikan X benar-benar (dan hanya Menggunakan Y)?

2. Apakah model urutan kedua menyediakan daya secara signifikan lebih prediktif daripada yang disediakan oleh model garis lurus?

3. Mengingat bahwa model urutan kedua lebih tepat daripada model garis lurus, harus kita tambahkan hal yang lebih tinggi, dengan model urutan kedua?)

Test for overall Regrressions and strenght of the overall parabolic Relationship

To determine whether the overall regressions is significant involves testing the null hypothesis , there is no significant overall regressions using X and X2 0 . The testing procedure used for this null hypothesis involves the overall F test described in Chapter 9, namely, computing:

(Tes untuk Regresi secara keseluruhan dan kekuatan keseluruhan parabola Hubungan

Untuk menentukan apakah regresi keseluruhan signifikan melibatkan pengujian hipotesis nol, tidak ada secara keseluruhan regresi signifikan menggunakan X dan X2. Prosedur pengujian yang digunakan untuk hipotesis nol ini melibatkan uji F keseluruhan dijelaskan pada Bab 9, yaitu, komputasi:)

The compare the value of this F statistic with an appropriate critical point of the F distribution, which (in our example) has 2 and 26 degrees of freedom in the numerators and denominators, respectively. For alfa = 0,001, we find that F=35,37>F2,26,0,999=9.12, and so we reject the null hypothesis of nonsignificant overall regressions (P<0,001).

To obtain a quantitative measure of how well the second order model predicts the dependent variable, we can use the squared multiple correlation coefficient (the nultiple R2) . As with r2 in straight line regression, R2 represents the proportionate reduction in the error sum of square obtained by using X and X2 instead of the naïve predictor Y. The formula For calculating R2 is Given by

(Membandingkan nilai statistik F ini dengan titik kritis yang tepat dari distribusi F, yang (dalam contoh kita) memiliki 2 dan 26 derajat kebebasan di pembilang dan penyebut masing-masing.

Page 8: Muli

Untuk alfa = 0001, kami menemukan bahwa F = 35,37> F2,26,0,999 = 9.12, dan jadi kita menolak hipotesis nol dari regresi keseluruhan signifikan non (P <0,001).

Untuk mendapatkan ukuran kuantitatif dari seberapa baik model urutan kedua memprediksi variabel dependen, kita dapat menggunakan squared multiple koefisien korelasi (multiple R2). Seperti r2 di regresi garis lurus, R2 merupakan pengurangan proporsional dalam jumlah kesalahan persegi diperoleh dengan menggunakan X dan X2 bukan prediktor naif Y. Rumus Untuk menghitung R2 Diberikan oleh)

For this example R2 =0,731 . The F testt above (9With P<0,001) tells us that this R2 is significantly different from 0.

(It is possible, although not likel, that the overall F test for the second order model will not lead the rejection of H0 even if the t test (or the equivalent F test) for significant regression of the sraight line model leads to rejections. This possibility arises because the loss of 1 degree of freedom in SSE in going from the straight line model to the second order model may result in a smaller computed F, coupled with an altered critical point of the F distribution. In our example, the computed F is reduced from 66,81 (68,89 for the variables added in order test in table 13-1) for the straight line model to 35,37 for the second order model, and the critical point of the F distribution for alfa=0,001 is reduced From F1,27,0,999 = 13.6 to F2,260,999= 9,12 ).

(Untuk contoh ini R2 = 0.731. Uji F di atas (9 Dengan P <0,001) menunjukkan bahwa R2 ini secara signifikan berbeda dari 0.

(Hal ini dimungkinkan, meskipun tidak mungkin, bahwa uji F keseluruhan untuk model urutan kedua tidak akan menyebabkan penolakan H0 bahkan jika uji t (atau uji F setara) untuk regresi signifikan dari model garis lurus mengarah ke penolakan. kemungkinan ini muncul karena hilangnya 1 derajat kebebasan di SSE untuk pergi dari model garis lurus untuk model urutan kedua dapat mengakibatkan F lebih kecil dihitung, ditambah dengan titik kritis yang berubah dari distribusi F. dalam contoh kita, dihitung F berkurang dari 66,81 (68,89 untuk variabel ditambahkan dalam uji urutan tabel 13-1) untuk model garis lurus ke 35,37 untuk model urutan kedua, dan titik kritis dari distribusi F untuk alfa = 0001 berkurang Dari F1,27,0,999 = 13,6 untuk F2,260,999 = 9,12).)

Test for the addition of the X2 term to the Model

To answer the second questions about increased predictive power, we must perform partial F test of the null hyphotesis H0: “The addition of the X2 term to the straight line model does not

Page 9: Muli

significantly improve the prediction of Y over and above that achieved by the straight line model it self “ . To test this null hypothesis, we compute the partial statistic .

(Tes untuk penambahan istilah X2 ke Model Untuk menjawab pertanyaan kedua tentang peningkatan daya prediksi, kita harus melakukan uji F parsial hipotesis H0 nol: "Penambahan istilah X2 dengan model garis lurus tidak secara signifikan meningkatkan prediksi Y atas dan di atas yang dicapai oleh model yang lurus garis itu sendiri ". Untuk menguji hipotesis nol ini, kita menghitung statistik parsial.)