y length α βx width ewolfpack.hnu.ac.kr/2015_fall/d4be/분산분석.pdf · 2015-11-22 ·...

7
경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국 통계학자, 생물학자, 수학자 - 분산 분석 창시자 iris 분꽃 데이터 - 3개 종, 4개 변수 관측 데이터 - sepal 꽃 받침 (길이, 넓이) - petal 꽃잎 (길이, 넓이) 분산 개념 정의 •변수의 데이터 흩어짐의 척도이다. 활용 변동계수 Coefficient of Variation CV - 표준편차를 평균으로 나눈 값으로 축정 단위가 다른 데이 터의 흩어짐 (반대 꾸준함) 비교할 때 사용 : > sd(iris$Sepal.length)/mean(iris$Sepal.length) 0.1417113 품질 - 분산의 역수 •의사결정 - 위험, 분산이 클수록 위럼이 높음 분산분석이란 데이터가 움직인 공간에 대한 척도, 관측값이 큰 개체, 작은 개체, 개체들간 변수 관측값 왜 이렇게 변동이 있나? 이 변동을 어떻게 설명할 수 없을까? 꽃 받침의 길이의 변동을 설명하는 방법? 1) 품종에 따라(범주형, 정성적) 받침의 길이는 달라지지 않을까? - 분산분석 2) 꿏 받침 넓이에 따라(측정형, 정량적) 달라지지 않을까? - 회귀분석 s 2 = ( x i x ) 2 n 1 CV = s x Y (length) = α + β x(width) + e 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 17 mean(iris$Sepal.length); var(iris$Sepal.length) stripchart(iris$Sepal.length, method="stack", pch=c(18), col=c("blue"), main="Dot diagram of Sepal_length”, offset=0.5)

Upload: others

Post on 12-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

예제 데이터

R. A. Fisher (1919) 영국 통계학자, 생물학자, 수학자 - 분산분석 창시자

iris 분꽃 데이터 - 3개 종, 4개 변수 관측 데이터

- sepal 꽃 받침 (길이, 넓이)

- petal 꽃잎 (길이, 넓이)

분산 개념

정의

•변수의 데이터 흩어짐의 척도이다.

활용

•변동계수 Coefficient of Variation CV - 표준편차를 평균으로 나눈 값으로 축정 단위가 다른 데이

터의 흩어짐 (반대 꾸준함) 비교할 때 사용 : > sd(iris$Sepal.length)/mean(iris$Sepal.length) 0.1417113

•품질 - 분산의 역수

•의사결정 - 위험, 분산이 클수록 위럼이 높음

분산분석이란

•데이터가 움직인 공간에 대한 척도, 관측값이 큰 개체, 작은 개체, 개체들간 변수 관측값 왜 이렇게 변동이 있나? 이 변동을 어떻게 설명할 수 없을까?

•꽃 받침의 길이의 변동을 설명하는 방법?

1) 품종에 따라(범주형, 정성적) 받침의 길이는 달라지지 않을까? - 분산분석

2) 꿏 받침 넓이에 따라(측정형, 정량적) 달라지지 않을까? - 회귀분석

s2 =(xi − x )

2∑n −1

CV = sx

Y (length) =α + βx(width)+ e

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page1 7

mean(iris$Sepal.length); var(iris$Sepal.length) stripchart(iris$Sepal.length, method="stack", pch=c(18), col=c("blue"), main="Dot diagram of Sepal_length”, offset=0.5)

Page 2: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

품종에 따른 받침 받침 길이 차이?

•품종에 따른 꽃 받침의 길이 차이가 있는지 어떻게 증명할까? 각 품종의 평균이 유의적으로 다르면 품종이 꽃받침을 값의 변동을 설명할 수 있을 것이다.

•통계적으로 증명하려면 모수형태로 - 이 각각 다름을 검정하면 된다.

•폼종이 2개이면 서로 독립인 2집단 모평균 차이 t-검정을 실시하면 된다.

•품종이 3개이므로 3개의 귀무가설 ( ) ( ) ( ) 동시에 하면 된다. 3개 가

설을 유의수준 5%에서 동시에 하게 되면 , , 즉 14%가 유의수준이다.

일원 (요인 1개) 분산분석 모형 : One Way ANOVA Model

데이터 구조

µ1,µ2,µ3

H0 :µ1 = µ2 H0 :µ1 = µ3 H0 :µ2 = µ31− (1−α )3 = 0.14

수준1 수준2 … 수준 k 행 합

y11 y12 … y1k y1.

y21 y22 … y2k y2.

yn11 yn22 … ynkk ynk.

y.1 y.2 … y.k y1.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page2 7

stripchart(Sepal.length~Species,method="stack", pch=c(16,17,18), col=c("red","blue","green"), xlab="iris type", main="Dot diagram of Sepal_length", offset=0.5, data=iris)

Page 3: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

모형 model : , (가정)

•기호 : (집단의 개수)

(집단 i 반복 크기), n=총 데이터

개수

• : 종속변수, 반응변수 response variable - 범주형 변수(집단)를 이용하여 변동을 설명하고픈 변수

•요인 factor : 범주형 집단변수, 실험설계에서는 처리효과 treatment effect

• =i 모집단 평균 =전체 모집단 평균

• 의 관측값의 변동은 집단의 “평균”(집단에 의해 설명되는 부분)과 “오차”(랜덤) 부분으로 나뉜다.

•만약 집단의 평균의 차이( )가 유의적인 차이가 있다면 집단이 종속변수의 변동을 잘 설명함

•MVUE 추정 : ,

변동 분해

1) 총변동 total sum of squares SST

•종속변수의 변동

• - 검은색 화살표

2) 집단 간 변동 between SS, SSB

•요인변동이라고도 하며 총변동 중 요인의 집단(수준)에 의해 설명되는 변동

• - 주황색 화살표

3) 집단 내 변동 within SS, SSW

•오차변동이라고도 하며, 총변동 중 요인이 설명하지 못하는 변동

• - 파랑색 화살표

yij = µ +α i + eij eij ~ (0,σ2 )

i = 1,2,...,kj = 1,2,...,ni

Yij

µi µ

yij

µi = µ +α i

µ̂ = y.. µ̂i = yi.

SST = (yij − y.. )∑ 2

(yij − yi. + yi. − y.. )∑ 2

SSB = (yi. − y.. )∑ 2

SSE = (yij − yi. )∑ 2

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page3 7

sm.density.compare(iris$Sepal.length,iris$Species) title(main="Sepal Length by Species") abline(v=5.84)

y1. y2. y3.

y..

y32

Page 4: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

평균 변동 Mean Sum of

Squares

•변동(Sum of Squares) 값을 자유도로 나눈 값 : 변동의 평균적 개념, n=총 관측값 개수, k=집단의 개수

•집단간 평균변동 MSB(Mean SSE) = SSB/(k-1)

•집단내 평균변동 MSE(Mean SSW) = SSE/(n-k)

변동의 분포 오차의 가정 : ->

/

평균 변동 기대값

•MSE 기대값

•MSB 기대값

•그러므로 집단 간 평균의 차이가 없다면 , 차이가 유의적이면 1보다 많이 커진다.

eij ~ (0,σ2 ) yij ~ (µi ,σ

2 )

SSBσ 2 =

(yi. − y.. )2∑

σ 2 ~ χ 2 (n − k) SSEσ 2 =

(yij − y.. )2∑

σ 2 ~ χ 2 (n −1)

EMSE = E((yij − yi. )∑ 2

(n − k)) =σ 2

EMSB = E((yi. − yi. )∑ 2

(k −1)) =σ 2 +

ni (µi − µ)2∑k −1

EMSBEMSE

= 1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page4 7

y3.

y2.

y..

y1.

boxplot(iris$Sepal.length~iris$Species) abline(a=5.84,b=0,col="red") abline(a=5.006,b=0) abline(a=5.936,b=0) abline(a=6.588,b=0)

y32

3번째 집단, 2번째 관측값 y32

전체 평균으로부터 관측값이 벗어난 변동 중 집단3의 평균에 의해 설명되는 부분(주황색)까지는 설명이 되나, 나머지 변동(파랑색)은 설명하지 못함

Page 5: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

분산분석 표 ANOVA analysis of variance table - F 검정

귀무가설 : 집단의 평균은 동일하다. , 혹은

(귀무가설이 맞다면 F-통계량은 1이다)

대립가설 : 적어도 하나의 집단 평균은 다르다. <=> 모든 집단 평균이 동일한 것은 아니다

사후검정 Post Hoc Test 다중비교 Multiple Comparison

•데이터 분석 전에 설정된 가설에 대한 검정이 아니라 분산분석의 F-검정에 관계없이 집단 간 평균의 차이가 있는지 검정함

•여러 개 가설(집단 간 차이, 집단의 수가 k개이면 개 개별 가설 필요)을 동시에 검정하면 실제 유의수준

5%가 아니라 높아진다. 조정된 실험 유의수준 (controlled experimental error rate)이라 하고 이다

Fisher’s Least Significant Difference

두 집단별 평균 비교 검정에 사용하나 이는 다중 비교에 해당되지는 않는다. 두 모집단 평균 차이 검정에서 통합 분산 (pooled variance) 대신 MSE 사용한다.

for

Tukey HSD(honestly significant difference) procedure

, q에 대한 분포표 제공

가장 보수적인(귀무가설 기각하지 않음) 방법으로 자연 과학에서 가장 많이 이용한다.

Student-Newman-Keuls procedure

Tukey 방법의 변형한 것으로 표만 다르다. 즉 임계치(critical value)만 차이가 있고 방법은 Tukey와 동일하다.

Duncan Multiple range test

•Tukey 방법과 매우 유사하나 수준별 표본 평균을 크기 순으로 나열하여 차이가 가장 큰 것을 비교해 가면서

유의 수준을 으로 조정해 가면서 검정한다. r은 검정 단계 순서이다.

•귀무가설을 기각할 확률이 매우 높아 자주 사용하지 않는다.

요인 변동합 자유도 평균변동 F-통계량

집단간 (품종) SSB k-1 MSB=SSB/(k-1) MSB/MSE~F

오차 SSE, SSW n-k MSE=SSE/(n-k)

총변동 SST=SSB+SSE n-1

µ1 = µ2 = ...= µk α1 =α 2 = ...=α k

c = kC2

c)1(1 α−−

LSD = tα /2 (n − k) MSE( 1ni +1nj ) (yi. − yj . )

HSD = q() MSE( 1ni +1nj )

r)1(1 α−−

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page5 7

Page 6: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

Scheffe’s S method

대비(contrast)까지 고려하여 유의수준을 고려한 다중 비교 방법으로 (Tukey >Scheffe > Duncan 순으로 보수적)사회 과학 분야에서 주로 사용

대비 -> 추정치 , 평균 , 분산

대비의 신뢰구간

Dunnett’s procedure

처리 효과의 수준 하나가 control (실험 집단)인 경우 (예: placebo 집단, 교육을 하지 않는 집단, 이전 약 투여 집단) 이 집단과 다른 집단들을 pairwise 비교할 경우 사용된다.

IN R : 💾 IRIS.csv 데이터

Q = ciµi , ci = 0∑∑ Q̂ = ciyi.∑ E(Q̂) = ciµi∑ V (Q̂) = ci2 σ 2

ni∑

Q̂ ± MSE ci2

niF(1,n − k)∑

boxplot(iris$Sepal.length~iris$Species)$out iris[which(iris$Sepal.length==4.9),] iris0=iris[-107,] boxplot(iris0$Sepal.length~iris0$Species)$out iris[which(iris$Sepal.length==7.9),] iris2=iris0[-132,] boxplot(iris0$Sepal.length~iris0$Species)

iris2.aov=aov(iris2$Sepal.length~iris2$Species) summary(iris2.aov)

TukeyHSD(iris2.aov)

by(iris2$Sepal.length,iris2$Species,sd)

by(iris2$Sepal.length,iris2$Species,mean)

Df Sum Sq Mean Sq F value Pr(>F) iris2$Species 2 64.97 32.48 130.8 <2e-16 *** Residuals 145 36.00 0.25

diff lwr upr p adj

versicolor-setosa 0.930 0.694 1.165 0

virginica-setosa 1.621 1.382 1.859 0

virginica-versicolor 0.691 0.452 0.929 0

이상치가 있음 (virginica) 종에 있음 - 107번째, 다시 이상치 존재 - 132번째, 이를 삭제하면

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page6 7

Page 7: Y length α βx width ewolfpack.hnu.ac.kr/2015_Fall/D4BE/분산분석.pdf · 2015-11-22 · 경영경제 데이터 일원 분산분석 예제 데이터 R. A. Fisher (1919) 영국

경영경제 데이터

일원 분산분석

Case Study I : 💾 ear_infection.csv Keller 9th “Managerial Statistics”

아이들의 귀 염증을 치료하는 방법은 (1) 염증 제거 수술 (2) Surfafurazole 약 처방 (3) 플라시보 placebo 3가지가 있다. 병의 치료가 효과가 있는지 다음으로 판단한다. a) 아픈 증상 나타난 회수(number of episodes of the illness) b) 재발로 인한 소아과 의사 방문 회수(visits) c) 처방전 회수(prescription) d) 호흡기 염증 지속 기간 (days)

어떤 치료 방법이 가장 효과적인지 분석하시오.

Case Study II : 💾 Jobs.csv Keller 9th “Managerial Statistics”

성별, 학력(E1=고졸미만,E2=고졸, E3=대학 수료 E4=대졸)에 따른 직장의 수에 차이가 있는지 (37세~45세) 분석하시오. 일단 개별 변인으로 판단하시오.

Case Study III : 💾 bank2.csv Keller 9th “Managerial Statistics”

여성 CEO에 대한 차별 분석에서 (1) 승인률은 차이가 없었고 (2) 이자율에서는 남성 CEO에 비해 높아, 차별이 있다고 분석되었다. 그러나 은행은 이자율을 결정할 때는 대출 신청 기업의 기업 형태를 보고 결정한다고 했다. 이를 알아보기 위한 분석을 실시하시오. Business 종류 1=개인, 2=파트너쉽, 3=주식회사

요인 변동합 자유도 평균변동 F-통계량

집단간 (품종) 64.7 2 32.5 130.8

(<0.001)오차 32.5 145 0.25

총변동 97.2 147

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page7 7

분산분석(F=130.8, 유의확률<0.001) 결과 품종 간 꽃 받침 길이는 차이가 있음

Tukey HSD 검정 결과 쌍체 집단의 차이는 모두 유의하여 Virginia 꽃 받침 길이가 가장 길고 versicolor 종의 길기가 가장 짧다.

다중비교 결과는 평균 표에 알파벳으로 표시, 동일 알파벳이면 유의적 차이가 없음

품종 평균(M) 표준편차(SD)

versicolor (a) 5.01 0.35

setosa (b) 5.94 0.52

virginica (c) 6.63 0.60