1. 통계학이란 -...

14
통계학원론 Chapter 1. 통계학이란? 1. 통계학이란 정의 [Webster’s Dictionary] 통계학(Statistics)은 숫자 데이터(numbered data)를 수집(collect), 정리 (summarize), 분석 (analysis), 표현(presentation)에 관련된 일련의 과정에 관한 학문으로 수학 의 한 분야이다. [Kendall and Stuart] 통계학은 모집단(population: 관심의 대상이 되는 집단)의 성질(이를 통계 학에서는 변수라 한다)을 세거나 측정하여 얻어진 데이터를 다루는 과학의 한 분야이다. [Ott] Statistics is about data. 통계학은 데이터에 관한 학문이다. [Anonymous] 통계학은 미지에 대한 가이드이다. Statistics is a guide to the unknown. [Me] 통계는 예술이다. Statistics is art. (1) 데이터 수집 (data collection) 관심 집단의 특성을 측정한다. 측정된 특성을 변수라 하고 변수 형태 는 비율 (ratio), 구간 (interval), 순서 (ordinal), 명목 (nominal)으로 나눈다. (2) 데이터 정리 (data summarization) 수집된 데이터를 표나 그래프로 (히스토그램, 산점도) 정리하 여 그래프 요약을 (graphical summary) 얻거나 평균, 표준편 차, 비율과 숫자 요약을 얻는다. (3) 데이터 분석 (data analysis) 알고자 하는 모집단의 특성 (모수), 함수관계에 대한 추론 단계 추론 (inference)이란 모수 (parameter) 값을 추정하거나 통계적 가설에 대한 진위여부를 판단하는 단계 (4) 데이터 표현 (data presentation) 데이터를 정리, 분석하여 얻은 정보를 적절히 표현하는 단계. 통계 전공자가 아니더라도 쉽게 이해할 수 있도록 작성한다. 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr Page 1

Upload: others

Post on 09-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

1. 통계학이란

정의

[Webster’s Dictionary] 통계학(Statistics)은 숫자 데이터(numbered data)를 수집(collect), 정리(summarize), 분석 (analysis), 표현(presentation)에 관련된 일련의 과정에 관한 학문으로 수학의 한 분야이다.

[Kendall and Stuart] 통계학은 모집단(population: 관심의 대상이 되는 집단)의 성질(이를 통계학에서는 변수라 한다)을 세거나 측정하여 얻어진 데이터를 다루는 과학의 한 분야이다.

[Ott] Statistics is about data. 통계학은 데이터에 관한 학문이다.

[Anonymous] 통계학은 미지에 대한 가이드이다. Statistics is a guide to the unknown.

[Me] 통계는 예술이다. Statistics is art.

(1) 데이터 수집 (data collection)

관심 집단의 특성을 측정한다. 측정된 특성을 변수라 하고 변수 형태는 비율 (ratio), 구간 (interval), 순서 (ordinal), 명목 (nominal)으로 나눈다.

(2) 데이터 정리 (data summarization)

수집된 데이터를 표나 그래프로 (히스토그램, 산점도) 정리하여 그래프 요약을 (graphical summary) 얻거나 평균, 표준편차, 비율과 숫자 요약을 얻는다.

(3) 데이터 분석 (data analysis)

알고자 하는 모집단의 특성 (모수), 함수관계에 대한 추론 단계 추론 (inference)이란 모수 (parameter) 값을 추정하거나 통계적 가설에 대한 진위여부를 판단하는 단계

(4) 데이터 표현 (data presentation)

데이터를 정리, 분석하여 얻은 정보를 적절히 표현하는 단계. 통계 전공자가 아니더라도 쉽게 이해할 수 있도록 작성한다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page1

Page 2: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

2. 통계적 방법

1) 사회과학 방법과 통계분석 방법

(1) 확증적 confirmatory 데이터분석

연역적 방법으로 Data Analysis 과학철학자 Popper(11955)는 “이론은 직관에 의해서만 얻어질 수 있다”고 주장해 연역적 방법의 타당성을 강조하였다.

통계적가설(모형 설정) -> 데이터 수집 -> 가설검정 순으로 진행

지적 능력은 수능성적에 직선적 영향을 줄 것이다는 이론을 통계적 가설(귀무가설과 대립가설로 나뉨)로 만듬 -> 데이터 수집 -> 데이터로부터 계산된 값(이를 통계량이라 함)을 이용하여 귀무가설을 받아들이거나 기각하여 이론의 타당성을 검증함

(2)탐색적 exploratory 데이터분석

1977년 John W. Tukey 제안 탐색적 데이터 분석(EDA: Exploratory Data Analysis) 방법 (1)수집된 데이터가 가진 정보를 숫자 요약과 그래프를 이용하여 찾아내거나 (2)데이터를 보다 유용하게 만들기 위하여 데이터를 재표현(re-expression) 하여 정보 획득

•귀납적 방법 : 데이터 표현 -> 내재된 정보 탐색 -> 이론 도출

•최신 EDA : Data Mining, Big Data

IQ와 수능성적과 관계를 시각적으로 표현하여 두 관계가 이차식 형태를 갖고 있다는 사실을 발견하였다. 물론 이차식 관계는 확증적 데이터 분석을 적용하여 최종적으로 확증하게 된다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page2

Page 3: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

2) 통계적 방법

ASA (American Statistical Association) 정의

통계학은 데이터 수집, 분석, 표현에 대한 수리적 원리의 과학적 응용이라고 정의하고, 통계학자는 조사 및 실험설계, 데이터 수집, 처리, 분석, 그리고 결과에 대한 해석에 그들의 수리적, 통계학적 지식의 활용하여 과학적 의문에 도움을 주는 전문가이다.

통계학은 기술통계학과 추론통계학으로 나뉜다.

기술통계학은 (descriptive Statistics) 모집단 전체 혹은 표본 (모집단 일부)으로부터 얻은 데이터에 대한 숫자 요약(기초통계량; 평균, 분산)이나 그래프 요약을 (히스토그램) 통하여 관심대상에 대한 유용한 정보를 생산하는 분야이다.

표본으로부터 얻은 정보, 요약된 통계량이나 그래프를 이용하여 모집단의 특성(모수: parameter)을 추론(추정, 검정)하거나 설정된 특성들의 (변수) 함수관계의 진위여부를 판단하는 분야를 추론 통계학이라 (inferential Statistics) 한다.

(a) 기술 통계학(descriptive statistics)

모집단 전체(센서스) 혹은 표본(sample: 모집단 일부)으로부터 얻은 데이터에 대한 숫자 요약(numerical summary, 평균, 분산)이나 그래프 요약(graphical summary)을 통하여 데이터가 가진 정보를 정리한다.

[keyword] 요약, 시각적 표현

(b) 추론 통계학(inferential statistics)

표본으로부터 얻은 정보를 이용하여 모집단의 특성(모수: parameter)을 추론(추정, 검정)하거나 변수들간의 적절한 함수 관계(modeling)를 설정한다.

[keyword] 확률변수, 확률분포함수

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page3

Page 4: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

3. 통계 역사

1) 기술 통계학 - 국가통계

•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야 생활 전과 후에 각 한 번씩 조사

•로마 황제 Tullis: 세금 징수를 위하여 5년마다 인구 조사, Caesar 가 로마 제국 전역으로 확대

•AD74 로마 패망 후 영국 스페인(미국/페루지역) 센서스

•센서스(census, 전수 조사): 어원 censura(라틴어 세금tax), statistics(통계학, 라틴어 status국가)

•17C 영국 출생률과 사망률 조사: 나이팅게일도 통계학자 - polar diagram (원인별 비율)

사회조사는 19세기 후반부터 사회 과학자들에 의해 사용되기 시작하였다. Karl Marx는 1880년에 2만 5천명의 프랑스 노동자를 대상으로 그들의 정치적 태도와 성향에 대한 우편 조사를 시행하였고, Max Weber는 직접 관찰과 조사 연구를 통하여 노동자들의 심리, 태도, 직업관 등을 연구하였다. 20세기에 들어오면서 미국 사회학자들에 의해 사회 조사 방법론 연구가 활발하게 진행되었으며, 미국 통계국(Bureau of Census)은 표본 추출 방법과 자료 수집 방법에 대한 연구에 집중하였고, Gallup과 Roper와 같은 사회여론 조사기관은 방법론을 발전시켰다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page4

Page 5: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

2) 추론 통계학 - 확률개념 활용

•게임 이론(game theory, probability, chance): 중세에 종교적, 도덕적 장벽으로 인하여 발전이 더딤

•Fermat, Pascal(1754): 드멜라라는 친구의 요청으로2인 게임에서 경기 조합 방법을 계산하기 위하여 파스칼의 삼각형을 제안하였다.

(활용1)

동전을 던져 3번 먼저 이기면 게임이 끝나고 승자는 만원을 가져간다. 동전을 3번 던진 결과 A가 2번 B가 한 번을 이기고 동전을 잃어버려 더 이상 게임을 진행 할 수 없다. 만원을 어떻게 나누어 가져야 하는가?

(활용2) 전개하시오.

추론통계의 근간이 확률분포함수는 사회과학, 자연과학 분야에서 다양한 형태의 관측, 실험 데이터 분석을 위하여 개발되었다.

정규분포 Normal Distribution : (De Moire, 1733) 이항분포 확률 계산 시 n이 크면 계산이 불가능해져 대체할 공식이 필요하였다. n이 충분히 크고 p=1/2일 때 정규분포 식 유도함. (Laplace, 1812) 이항분포와 기하분포의 정규근사 탐구 (Gauss, 1809) 우주의 법칙은 완전한 체계(이론) 하에서 움직인다. 그렇더라도 법칙과 관측에는 오차가 발생하게 된다고 주장하였다. 오차는 수정되어야 법칙을 활용할 구 있어 오차에 대한 분포(정보)가 필요하였다. 오차의 합은 0일 될 것이라는(우연의 상쇄) 행성간 거리 오차에 대한 히스토그램으로부터 정규분포 식을 유도하였음 (하여 정규분포를 Gaussian 분포라 함)

W.S. Gosset (1908): 독일 양조장 공장장, 소표본일 경우 대표본 이론(표본평균의 분포가 정규분포에 따름)을 사용할 수 없음 않음으로 인하여 발견한 분포가 t-분포이다.

F. Galton(1885): (1)회귀분석(유전학자, 완두콩과 부모자녀 키의 관계), Karl Pearson 수리적 접근 (2)요인분석(언어능력과 수리능력 측정 6개 항목-고전, 불어, 영어, 수학, 음악, 과학 분류) - Spearman 이론 전개

Fisher: 농업 통계 분야 분산분석 방법론 적용, 사회과학 조사 : 여론조사 (1900년 이후)

(a + b)5 =

nCr

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page5

Page 6: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

4. 통계 오용

숫자인 통계는 거짓말을 하지 못한다. 그것을 생산하거나 사용하는 사람들이 실수 혹은 다양한 주관적인 이유로 잘못된 통계 사용되고 있다.

1) 통계에 대한 비난

•세상의 3가지 거짓말 “lie, damn lie, and statistics”

•Benjamin Disreal : 영국목사, “Statistics can prove anything.”

2) 통계 오용 이유

•컴퓨터와 통계 소프트웨어의 발달: 모든 사람들이 통계를 이용할 수 있다는 착각, 적절하지 못한 분석 방법 사용

•통계전문가+적용 분야 전문가 지식 공유 부족

3) 통계 오용 사례

도덕성

① (1), 3, 4, 4, 5 만족도: 1점을 제외하면 만족도 평균이 3.5 에서 4로 상승

② 실험/조사 데이터 조작: 대학 실험실 ③결과 맞춤형 분석: 여론조사 (14대 대선에서 정주영, 김영삼, 김대중 - 각 후보에 이해가 있는 여론조사 기관이 서로 다른 예측 발표)

이해 관계

① 대학 구성원 임금 수준이 적절한가에 대한 연구를 이사장이 현재 재직 중인 A교수에게 수행하게 하였다면 그 교수는 연구를 재대로 수행할 수 있는가?

② 발표 자료의 신뢰성: 대학이 합격 학생들의 수능 성적을 공지할 때 향후 우수 학생 유치를 위하여 최종 합격자 성적보다는 1차 합격자 성적을 발표하는 경우가 있음

모집단 정의 오류

2010년 연봉 발표 결과를 보면 도선사가 1.05억이었고 외과의사는 0.82억원이었다. 이는 의사의 연봉 산정 시 인턴, 레지던트 의사까지 포함하였다면 이로 인하여 낮아졌을 것이다. 도선사는 근무연수에 따른 임금 수준의 차이는 미미하기 때문이다.

잘못된 정의 : 실업자 3.7% (2015.07) - 통계청 KOSIS 발표

① 1주일간 전혀 일을 하지 못하고 있었으나,

② 항상 취업이 가능하며,

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page6

Page 7: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

③ 적극적으로 구직활동을 한 사람

자신의 이익

① 증가율(increasing rate) 혹은 감소율의 함정: 우리 회사 매출이 작년 대비 3배(300%) 증가하였다? 작년 매출은 겨우 백 만원이었다면…

② 매출액 증가가 많은 것처럼 보이기 위하여 원점을 1.6부터 시작하였고, 고객 수의 실제 2배 증가했는데 면적으로 보면 4배처럼 보이는 착시 효과를 노려 그래프 표현함

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page7

Page 8: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

5. 자료수집

1) 데이터 (자료) 수집방법

▪ 기관 발표 통계 : 정부, 연구기관

▪ 관측 observation •송전선과 소아 백혈병

•No evidence / Not causality

▪ 조사 survey

•표본 Sample 여론조사 (한 여론조사기관에서 1997년 12월에 국회에서 의결한 금융실명제 보완 입법에 대한 국민들의 지지율을 조사)

•시청률조사 : 표본조사, people meter 활용

•전수 census 인구통계(5년)

▪실험 experiment •개체의 반응 관찰하기 위한 의도된 처리

•Causality

▪흡연과 폐암발생

한 제약회사에서 새로 개발된 AIDS 치료제의 효과를 분석하는 실험을 실시.

•실험방법 1 : AIDS 에 감염된 환자 20 명을 임의로 선발하여 위의 치료제를 투약한 후, 시간의 흐름에 따른 치료 효과를 측정

•실험방법 2 : AIDS 에 감염된 환자 20 명을 랜덤하게 10 명씩 두 집단으로 나눈 후, 한 집단에는 새로 개발된 치료제를 투약하고, 다른 집단에는 치료제를 투약하지 않은 채 시간의 흐름에 따른 두 집단의 반응을 비교 - placebo 효과 -> double blind 실험

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page8

Page 9: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

2) 표본조사

용어

•총조사 census : 대상집단 모두를 조사하는 방법. ‘인구 및 주택 총조사’가 그 대표적인 예. 많은 시간과 비용이 소요됨

•표본조사 sample survey : 대상집단의 일부를 관측해 그 대상집단 전체에 대한 정보를 구하는 과정. ->총조사에 비해 시간과 비용을 절약할 수 있음

•모집단 population : 관심(조사) 대상인 개체 전체

(예1) H대 학생 흡연율과 한달 용돈을 조사하는 경우 2015년 2학기 현재 재학생 중인 학생 전체

(예2) OECD 국가 GDP와 수출액

•개체 subject : 모집단을 구성하는 최소 단위이며 조사 대상 최소 단위

(예1) H대 재학 중인 학생

(예2) OECD 국가

•표집틀 sample frame : 모집단 개체를 파악할 수 있는 리스트 (개체 개별 인식 아이디와 조사표본이 될 경우 연락처 포함)

(예1) H대 재학 중인 학생의 학적부

(예2) OECD 국가 관련 통계 담당 기관

•(확률) 표본 probability sample : 모집단으로부터 조사를 위하여 (모집단 각 개체의 표본 추출 가능성이 동일한 방법으로 표본 개체 추출 - 확률적으로) 추출된 모집단 개체 일부

(예1) H대 재학생 중 표본으로 뽑힌 학생 200명

(예2) 모든 OECD 34개 국가 전수조사

•모수 parameter : 모집단의 관심 특성

(예1) H대 재학생 흡연률과 한달 평균 용돈

(예2) OECD 34개 국가 평균 GDP와 평균 수출액

•통계량 statistic : 모수에 대한 정보를 얻기 위하여 (통계적 추론) 표본 데이터로부터 계산된 값

(예1) H대 재학생 중 표본으로 뽑힌 학생 200명

(예2) 전수조사이므로 통계량 없음

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page9

Page 10: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

1) 단순랜덤추출법 simple random sample (SRS)

단순랜덤추출법이란 모집단 N개의 개체가 표본으로 뽑힐 가능성이 동일하도록(즉, 모집단 각 개체가 표본으로 추출될 가능성은 1/N) n개 (n≤N)의 표본을 추출하는 방법이다. 모집단의 각 원소에 1, 2, 3, …, N까지의 번호를 부여하고, 그 중에서 n개의 번호를 임의로 선택하여(일반적으로 난수 활용) 그 번호에 해당하는 원소를 표본으로 추출하는 방법이다.

이론적으로 가장 확률적인 방법다(ideal 방법)이나 표본프레임을 구하는 것이 어렵고 추출된 표본을 찾아가야 하므로 조사 비용의 증가로 경제성이 낮다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page10

Page 11: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

-> -> ->

만약 모집단의 수가 5,000개라면 난수 결과에 10,000을 곱하고 정수화 하여 사용하면 된다. 5,000번이 넘으면(3행의 6767) 제외하고 다음 난수를 사용하면 된다.

2) 계통추출법 systematic

모집단의 모든 원소들에게 1, 2, 3, …, N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K=3개 씩 n개의 구간으로 나누고 첫 구간(1, 2, …, K)에서 하나를 SRS 방법에 의해 임의로 선택한 후에 K개씩 띄어서 표본을 추출하는 방법이다.

난수를 여러번 찾아야 하는 번거러움은 줄이 수 있으나 여전히 전체 표본 프레임이 필요하고 번호에 따른 채계적인 패턴이 존재하는 경우 표본 편이가 발생하게 된다.

백화점 고객을 대상으로 만족도를 조사하는 경우 백화점 고객 리스트(카드 회원)를 이용하여 표본을 얻을 수 있으나 백화점 앞에서 조사하는 경우 표본을 뽑을때이방법을사용한다. 조사

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page11

Page 12: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

일에예상고객인원은 5,000 명이고표본수를 200 명이라 하면25번째, 50번째, 75번째, ...고객을 조사하면 된다. 물론 응답 거절이나 무응 답으로인하여한-두 번호 오차는 있을 수 있다.

전화번호 선택 시 일정번호를 건너뛰며 선택한다. 예를들면 629-7622 이선택되면(Random Digit Dialing) 629-7722, 629-7822, ... 이런 식이다.

3) 층화추출법 stratified sampling

층화추출법이란 모집단이 상당히 이질적인 원소들의 층으로 구성되어 있을 때 표본이 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 즉, 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후에 각 층에서 표본을 랜덤하게 추출하는 방법이다.

표본추출 및 조사 비용과 시간을 줄일 수 있는 장점이 있어 가장 널리 사용되는 방법이다. A기업에서 사내 직원 만족도를 조사한다고 하자. 사원 ID 를 이용하여 SRS 방법을 사용 할 수 있으나 회사에 대한 만족도가 직급별 차이가 존재할 것이므로 직급을 층(그룹)으로 하여층화추출방법을사용하는것이적절하다. 기업의규모가크면성별혹은입사연 수를 또 다른 층으로 사용하여 Multi-stage 층화 추출 방법을 사용하면 된다.

전화 여론 조사의 경우 응답자들을 지역에 의해 층화하고 전화 번호 선택은 계통 추출 방법을 이용하게 되므로 층화-계통 추출 방법을 이용하게 된다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page12

Page 13: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

4) 집락추출법 clustering

집락추출법은 모집단이 몇 개의 집단이 결합된 형태로 구성되어 있고, 각 집단 내부에서는 원소들에게 일련번호를 부여할 수 있는 경우에 이용되는 표본추출방법이다. 각 집단을 집락(cluster)이라고 하는데 표본추출과정은 일부집락을 랜덤으로 선택하고 선택된 각 집락 내에서 표본을 임의로 선택하는 방법이다.

조사비용과 시간 면에서 층화추출보다 효율적이지만 집락이 서로 다른 특성을 가지면 추정 결과는 왜곡된다.

(층화추출법과 집락추출법 비교)

집락 추출법 : 서울시내에서 임의로 100개의 가구 추출 시, 먼저 5개의 구를 선택하여 선택된 구내에서 4개의 동을 선택하여 각 동에서 50 가구 선택 (참고) 이미 나눠진 집락을 이용

층화 추출법 : 서울시내 슈퍼마켓의 연평균 매출액 조사, 일정한 기준하에서 슈퍼마켓을 ‘대형, 중형, 소형, 미니’의 네개층으로 나눈 후에, 각 층의 비율(예. 1:2:3:4)로 표본을 추출 (참고) 조사목적에 맞도록 임의로 정함.

조사기관 표본 조사 방법

규모 비례 확률 방법을 사용하여 전국 200 개 지역을 층화하고(층화 추출) 일련의 계통 추출 방법으로 가구 내 응답자를 선택한다. 좀더 상세히 살펴보면 표본 추출은 4 단계로 이루어진다.

1) 6 개 도시(서울, 부산, 대구, 인천, 대전, 광주), 8 개도(경기, 강원, 충남·북, 경남·북, 전 남

·북) 12개 층으로 나누고 도는 시, 읍, 면으로 나눈다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page13

Page 14: 1. 통계학이란 - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/IS/통계학원론_1장.pdf•성경: 구약의 민수기(numbers)에 이스라엘 백성 인구 조사, 광야

통계학원론 Chapter 1. 통계학이란?

2) 6 개도시, 시, 읍, 면의모집단을배열한후동(면은리)을뽑는다. (계통추출) 이것이 1 차 표본 지역(primary sampling location)이다. 표본 지역 수는 표본 수에 따라 달라지 나 표본의 크기가 1,500 이면 200 정도를 얻는다.

3) 실질 최종 표본 지역(actual final sampling location)인 반(부락)이 선택될 때까지 계통 표 본 추출을 반복한다. 반은 20 가구, 부락은 20-80 가구로 구성한다.

4) 조사자가 선정 지역을 직접 방문하여 주민 명부에서 8 가구를 임의 선정한다. 응답자가 18세이상인사람중생일이가장빠른사람을조사한다. 1차방문시그사람을만나 지못하는경우재방문한다.

전화조사의경우에는2~3단계를 RDD 가담당한다. 전화번호선택시계통추출방 법이 사용된다.

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

Page14