본문 바로가기

통계학

[통계]쉽게 익히는 표본분포와 표본추출법

by m_ahh 2017. 5. 31.
반응형

쉽게 익히는 "표본분포"와 "표본추출법"



 표본분포의 개념에 앞서 '표본 통계량' (Sample statistic) 의 개념을 보자면, 모집단의 관측 표본에 의해 결정되는 확률변수로, 확률 분포를 가지는 통계량을 의미한다. 즉, 표본을 어떻게 정의하냐에 따라 항상 달라지므로 확률변수로 취급되는 것이다.


 표본은 전체 모집단의 일부로 통계적인 값을 구할때 쓰이고 이는 Roman letters 로 쓰인다. 즉, X- 가 평균을 나타내고, S가 표본의 표준편차를 의미한다. 이 표본으로 우리는 Inferential statistics 를 통해 전체 모수의 parameter 를 추론하게 된다. 모수의 통계량은 Greek letters 로 쓰인다.  μ로 평균을 표시하고 σ로 표준편차를 나타낸다. 


 다시 본론으로 돌아가서 표본분포, Sample distribution 이란 이러한 표본통계량이 나타내는 확률 분포를 의미한다. 확률적인 계산이나 평균, 분산 등 보다 신뢰구간 추정과 가설 검정, 분산분석 등에 쓰이고 있다.  이와 비슷한 용어로 sampling distribution 이란 무한대의 표본을 취했을때 나오는 것을 나타낸다. 이때의 mean = population mean 이 된다.


 


 표본을 추출하는 방법에는 크게 3가지 정도로 분류해 볼 수 있다. 


첫째, 단순랜덤추출법(simple random sample) 으로 무작위로 추출을 하는 것이다. 이 과정에서 주의 할 점은 표본추출시 여러가지 bias 가 발생할 수 있다. 

 예를 들어, 대한민국 성인 남성의 평균키를 조사한다고 했을때 모든 남성 대상을 모두 조사할 수 없으므로 sampling frame 을 거져 sample 을 추출하게 되는데 일단 전체수에서 누락되는 Undercoverage 오차가 발생할 수 있다. 또한 성인 남성을 대표로 35세의 남성들만 대상으로 조사한다고 했을때, 이 집단이 전체 모수를 제대로 대표할 수 없을 수도 있다. 이를 sampling bias 라고 한다. 

 또 이 35세 남성들이 모두 응답을 하지 않을 수도 있으므로 nonresponse bias 가 발생 할 수 있다.



둘째, Random multi-stage cluster sample 이 있다. 모집단을 특정한 군집으로 나눈 후 몇몇 군집을 랜덤 선택하는 것이다. 

 앞의 예를 이어서 설명하자면 한국 성인 남성의 평균키를 조사하기 위해, 서울경기군집, 강원도군집, 충청도군집, 경상도군집, 전라도군집 으로 나눈 후 2개의 군집을 랜덤선택해서 조사 하는 것이다. 예를 들어 충청도 군집과 경상도군집의 남성들을 조사 한 후 이 것이 대한민국의 표본으로 삼는 것이다. 

 이는 sampling frame 이 없을때 유용한 방법이다.


셋째, Stratified random sample 방법이 있다. 층화 추출법이라고도 한다. 이는 군집으로 나눈 후 각 군집에서 일부를 랜덤선택하여 선택된 표본들의 합을 총 표본으로 삼는 것이다. 

 예를 들어, 서울경기, 강원, 충청, 경상, 전라 로 나누어진 군집에서 각각의 군집에서 1000명의 남성만 랜덤선택하여 총 5000명의 표본을 대상으로 대한민국 남성의 키를 조사하는 것이다. 


 

 여러가지 표본추출 법이 있지만, 항상 기억해야 할 것은 표본은 클 수록 좋다!

반응형

댓글