همبستگی و رگرسیون correlation and regression

Post on 30-Dec-2015

113 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

همبستگی و رگرسیون Correlation and Regression. موسوی ندوشنی پاییز 1386. مقدمه (زوج داده‌ها). آیا این زوج‌ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می‌توان معادله‌ای برای آنها منظور نمود؟ آیا با استفاده از این معادله می‌توان درون‌یابی و یا برون‌یابی نمود؟. نمودار پراکنش. - PowerPoint PPT Presentation

TRANSCRIPT

دانشگاه صنعت آب و برق 1

همبستگی و رگرسیونCorrelation and Regression

موسوی ندوشنی1386پاییز

مقدمه )زوج داده ها(آیا این زوج ها ارتباطی با هم دارند؟ اگر پاسخ مثبت است، آیا می توان معادله ای

برای آنها منظور نمود؟ آیا با استفاده از این معادله می توان

درون یابی و یا برون یابی نمود؟

دانشگاه صنعت آب و برق 2

نمودار پراکنش در این نمودار زوج های(x,y به صورت نقاط )

مجزا از هم در صفحه مختصات ظاهر می شوند.

دانشگاه صنعت آب و برق 3

همبستگی خطی مثبت

دانشگاه صنعت آب و برق 4

x x

yy y

x

(a) Positive(b) Strong

positive

(c) Perfect

positive

همبستگی خطی منفی

دانشگاه صنعت آب و برق 5

x x

yy y

x

(d) Negative(e) Strong

negative

(f) Perfect

negative

همبستگی غیر خطی

دانشگاه صنعت آب و برق 6

x x

yy

(g) No Correlation (h) Nonlinear Correlation

ضریب همبستگی خطی این ضریب میزان همبستگی خطی بین

را در نمونه، اندازه می گیرد.x, yزوج های

ضریب همبستگی خطی جامعه را با عالمت نشان می دهند.

دانشگاه صنعت آب و برق 7

1

2 2

1 1

) () (

) ( ) (

n

i ii

n n

i ii i

x x y yr

x x y y

=

= =

- -=

- -

å

å å

Cov) , (

X Y

X Yr

s s=

تفسیر ضریب همبستگی اگر قدر مطلقr

بزرگتر از مقادیر جدول مربوط به این ضریب باشد. نتیجه می گیریم

که همبستگی خطی معنی دار است.

در غیر اینصورت بهاندازه کافی معنی دار

نیست.

دانشگاه صنعت آب و برق 8

n

rآزمون فرض راجع به آیا همبستگی خطی معنی داری بین دو متغیر

وجود دارد.

H0: = (no significant linear correlation)

H1: (significant linear correlation)

Test statistic:

دانشگاه صنعت آب و برق 9

21

2

rt

r

n

=-

-

)روش اول(tآماره آزمون

دانشگاه صنعت آب و برق 10

)روش دوم(rآماره آزمون آماره آزمونr استفاده از جدول معنی دار بودنr

دانشگاه صنعت آب و برق 11

Fail to reject

= 0

0r = - 0.811 r = 0.811 1

Sample data:

r = 0.828

-1

Reject

= 0

Reject

= 0

دانشگاه صنعت آب و برق 12

0.27

2

1.41

3

2.19

3

2.83

6

2.19

4

1.81

2

0.85

1

3.05

5

x Plastic (lb)

y Household

n = 8 = 0.05 H0

: = 0

H1

: 0

Test statistic is r = 0.842

Is there a significant linear correlation?

n = 8 = 0.05 H0

: = 0

H1

: 0

Test statistic is r = 0.842

0r = - 0.707 r = 0.707 1

Sample data:

r = 0.842

- 1

Fail to reject

= 0

Reject

= 0

Reject

= 0

رگرسیونمعادله رگرسیون

در حالت کلی )جامعه( معادله خط به صورت زیر •است:

با توجه به زوج داده های اندازه گیری شده معادله •رگرسیون عبارتست از:

خط رگرسیون•بهترین خط برازش یافته خط حاصل از روش حداقل مربعات(least squares)

دانشگاه صنعت آب و برق 14

0 1y b bx= +

0 1Y Xb b e= + +

دانشگاه صنعت آب و برق 15

روش حداقل مربعات برای بیان روش حداقل مربعات، باقی مانده

را در نظر بگیرید که به صورت زیر است: واضح است که باید مجموع مربع خطا حداقل

شود. یعنی

اگر معادله خط را در رابطه باال جایگذاریکنید، نتیجه می شود که:

دانشگاه صنعت آب و برق 16

ˆi i ie Y Y= -

2

1

ˆmin ) (n

i ii

F Y Y=

= -å

20 1

1

) (n

i ii

F b bX Y=

= + -å

دنباله روش حداقل مربعات برای حداقل نمودن عبارتF باید از آن

مشتق گرفت و مساوی صفر قرار داد.

تقسیم کنید و 2اگر طرفین معادالت را بر جابجایی های الزم صورت گیرد، آنگاه به

معادالت زیر می رسید که به معادالت نرمال شهرت دارند.

دانشگاه صنعت آب و برق 17

0 110

0 111

2 ) ( 0

2 ) ( 0

n

i iin

i i ii

Fb bX Y

bF

b bX Y Xb

=

=

¶= + - =

¶¶

= + - =¶

å

å

0 12

0 1

nb b X Y

b X b X XY

+ =

+ =å å

å å å

روابط برای محاسبه ضرایب معادله

:محاسبه شیب خط

:محاسبه عرض از مبداء

دانشگاه صنعت آب و برق 18

0 1b y bx= -

1 1 1

1 2

2

1 1

n n n

i i i ii i i

n n

i ii i

n xy x y

b

n x x

= = =

= =

æ ö æ öæ öç ÷ ç ÷ç ÷-ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷è ø è øè ø=

æ ö æ öç ÷ ç ÷-ç ÷ ç ÷ç ÷ ç ÷ç ÷ ç ÷è ø è ø

å å å

å å

نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 19

1

mean xn

i

i

xx

n=

= å

1

mean yn

i

i

yy

n=

= å

2

1

) ( sum of squares yn

y ii

SS y y=

= -å

2

1

) ( sum of squares xn

x ii

SS x x=

= -å

1

) () ( sum of x,y cross productsn

xy i ii

S x x y y=

= - -å

دنباله نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 20

1 1The estimate of )slope(xy

x

Sb

SSb=

0 1 0The estimate of )intercept(b y bx b= -

ˆ The estimated residual obs. ii i ie y y= -

2

1

sum of squares errorn

e ii

SS e=

= å2

2 2

1

The estimate of 2

ni

e ei

eS

ns

=

=-å

دنباله نشان گذاری های مهم در رگرسیون

دانشگاه صنعت آب و برق 21

1 1) ( standard error of e

e

x

SS

SSb b=

2

0 0

1) ( standard error of

ex

xS

n SSb b= +

نمودار معادله رگرسیون

دانشگاه صنعت آب و برق 22

برآوردها در برآورد مقدارy بر اساس x داده شده، به

موارد زیر توجه کنید.همبستگی خطی معنی داری وجود ندارد. بنابراین •

است.y برابر با میانگین yبهترین برآورد اگر همبستگی خطی معنی داری وجود داشت، •

با جایگزین نمودن yآنگاه بهترین برآورد مقدار در داخل معادله رگرسیون بدست xمقدار می آید.

دانشگاه صنعت آب و برق 23

مثال مقدارy به ازای x=0.5 را در مثال زیر بدست

آورید.

دانشگاه صنعت آب و برق 24

0.27

2

1.41

3

2.19

3

2.83

6

2.19

4

1.81

2

0.85

1

3.05

5

x Plastic (lb)

y Household

b0

= 0.549

b1

= 1.48

ŷ = 0.549 + 1.48 (0.50)

ŷ = 1.3

خاصیت باقیمانده ها و حداقل مربعات

باقیمانده مقدار y را گویند، که y-ŷ( اختالف x,y)برای زوج •

مقدار برآورد شده می باشند.ŷمشاهده شده و حداقل مربعات

خط راست رگرسیون بر اساس حداقل مربع •باقیمانده ها ترسیم می شود.

دانشگاه صنعت آب و برق 25

تعاریفانحراف کل

( و x,y یعنی فاصله بین نقطه )y-yفاصله عمودی •خط افقی که از میانگین نمونه می گذرد.

انحراف تبیین شده و خطی که ŷ یعنی فاصله بین ŷ-yفاصله عمودی •

می گذرد.yاز میانگین نمونه انحراف تبیین نشده

( و x,y) یعنی فاصله بین نقطه y-ŷفاصله عمودی •خط رگرسیون

دانشگاه صنعت آب و برق 26

شکل مربوط به تعاریف

دانشگاه صنعت آب و برق 27

Total

deviation

(y - y)

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Unexplained

deviation

(y - ŷ)

Explained

deviation

(ŷ - y)

(5, 19)

(5, 13)

(5, 9)

ŷ= 3 + 2x

y = 9

y

x

0 1 2 3 4 5 6 7 8 9

ŷ و y، میانگین yروابط بین

دانشگاه صنعت آب و برق 28

ˆ ˆ) ( ) ( ) (y y y y y y- = - + -انحراف کل

انحراف تبیین شده انحراف تبیین

نشده

2 2 2

1 1 1

ˆ ˆ) ( ) ( ) (n n n

i i i

y y y y y y= = =

- = - + -å å å

تغییرات کل تغییرات تبیین شده تغییرات تبیین نشده

tSS reg

SS resSS

تعریف ضریب تعیین

دانشگاه صنعت آب و برق 29

2

2 1

2

1

ˆ) (explained variation

total variation) (

n

i

n

i

y yr

y y

=

=

-= =

-

å

å

2 13.83661 13.8366113.83661 5.663385 19.50.70957

r = =+

=

2 reg

reg res

SSr

SS SS=

+

دو آزمون معنی دار بودن مقدارr=0.8423 محاسبه شده است. مقدار r

% با استفاده از 5با سطح معنی دار بودن می باشد، که 0.707جدول مربوطه برابر با

است. بنابراین همبستگی 0.707<0.8423معنی دار می باشد.

اگرn تعداد نمونه ها و k تعداد متغیرهای را به صورت Fمستقل باشد، می توان آزمون

زیر نوشت.

که در آنdf1=k و df2=n-k-1 .دانشگاه صنعت آب و برق است 30

2

1 1

2

22

1

reg

res

SS Rdf df

SS Rdfdf

F-

= =

دنباله دو آزمون معنی دار بودن اکنون اگر مقدارF را محاسبه کنید، نتیجه

می شود که:

اکنونF(0.95,1,6)=5.987 با استفاده از جدول % است. مالحظه 5در سطح معنی دار

است و مدل 5.987<14.659می شود که مذکور رد نمی شود.

دانشگاه صنعت آب و برق 31

13.836611

5.6633856

14.659

F =

=

خطای استاندارد برآورد خطای استاندارد برآورد به صورت ریاضی برابر

است:

که درجه آزادی است و برابر با تعداد نمونه ها منهای تعداد پارامترهای برآورد شده است. اگر معادله خط

است.=n-2را در نظر بگیرید اگرSe نزدیک Sy باشد، رگرسیون موفق نیست. اگر Se

کوچکتر باشد و نزدیک به صفر Syبه اندازه کافی از باشد، آنگاه رگرسیون مناسب به نظر می رسد.

دانشگاه صنعت آب و برق 32

2

1

ˆ) (n

i ii

e

Y YS

n=

-=

å

21e y

S S R= -

فاصله اطمینان برآورد در مورد خط

خطای استاندارد برآورد برآورد ŷ مشاهده شده و yاختالفات بین مقدار •

شده، یک خطای استاندارد را موجب می شود.

فاصله ای که می توان برایy در نظر گرفت به صورت زیر است:

دانشگاه صنعت آب و برق 33

2

1

ˆ) (

2

n

i ii

e

y yS

n=

-=

-

å

ˆ ˆy E y y E- < < +

Eمیزان مقدارE:به صورت زیر است

که در آنx0 مقداری است که به جای x در حاصل ŷمعادله رگرسیون قرار می دهیم تا

گردد.

دانشگاه صنعت آب و برق 34

20

/2, 2

) (11

n ex

x xE t S

n SSa -

-= + +

میانگین به عنوان داده

دانشگاه صنعت آب و برق 35

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

x

g10 xbby

داده های نزدیک به میانگین

دانشگاه صنعت آب و برق 36

36

x1x)1x( 1x)1x(

g10 xbby

)1xx(y g )1xx(y g

1x 1x

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

2

2

1 1ˆ 1

x

y t sn SSa e

± + +

داده های دورترنسبت به میانگین

دانشگاه صنعت آب و برق 37

37

x

g10 xbby

2x)2x( 2x)2x(

2x 2x

2

2

) (1ˆ 1 g

x

x xy t s

n SSa e

-± + +

2

2

1 2ˆ 1

x

y t sn SSa e

± + +

2

2

1 2ˆ 1

x

y t sn SSa e

± + +

Eفاصله اطمینان با استفاده از با استفاده از مقدارE می توان یک فاصله

اطمینان برای خط رگرسیون ترسیم نمود.

دانشگاه صنعت آب و برق 38

0 0.5 1 1.5 2 2.5 3 3.5-2

-1

0

12

3

4

56

7

8

910

plastic (lb)

Ho

use

ho

ld

data observedregression lineconfidence intervals %95

برای شیب خطفاصله اطمینان فاصله ای که می توان برای1 در نظر گرفت

به صورت زیر است:

که مقدارE:در آن عبارتست از

دانشگاه صنعت آب و برق 39

1 1 1b E b Eb- < < +

/2, 2n e

x

t SE

SS

a -=

برای عرض از فاصله اطمینانمبدا خط

فاصله ای که می توان برای0 در نظر گرفت به صورت زیر است:

که مقدارE:در آن عبارتست از

دانشگاه صنعت آب و برق 40

0 0 0b E b Eb- < < +

2

/2, 2

1n e

x

xE t S

n SSa -= +

شرایط صحت رگرسیون فرضیاتی که تحت آن مدل رگرسیون صحت

دارد.باقی مانده ها از یکدیگر مستقل باشند.•میانگین آن ها صفر باشد.•واریانس آن ها مقداری ثابت است.•باقی مانده ها به طور نرمال توزیع شده اند.•

،اگر یکی از مفروضات فوق برقرار نباشدمی توان مدعی شد که ساختار مدل مناسب

نیست. .اگر مدل را به صورت زیر در نظر گیرید

نتیجه می شود. دانشگاه صنعت آب و برق 41

20 1

)0, cte(e

Y X Nb b e e s= + + =:

top related