본문 바로가기

통계학

[기초] 통계학 요약 정리 1

by m_ahh 2017. 5. 6.
반응형

[기초] 통계학 요약 정리 1



▶ 통계기초, Variable, Statistical methods


 통계는 기본적으로 두 가지 방법으로 분류 될 수 있습니다.  첫 번째로 기술통계 - descriptive statistic - 가 있습니다. 이는 수집한 정보를 정량적으로 묘사하거나, 혹은 요약하는 통계적 기법을 의미합니다. 두번째는 추리통계 - inferential statistic - 입니다. 이는 수집한 정보를 이용하여 추론하고, 예측하는 통계적 기법을 의미합니다. 


 우리가 수집하는 데이터들은 Variables 와 Case 로 나타낼 수 있습니다. Variables 는 어떠한 사물이나 대상의 특징을 나타내는 것이고 Case 는 어떠한 사물이나 대상 그 자체로 볼 수 있습니다. 

 예를 들어 야구에 대한 데이터를 수집한다고 가정해 봅시다. 야구선수들은 Cases 가 되겠고, 야구선수들의 키, 몸무게, 소속, 나이 등은 Variables 로 여겨집니다. Variables 는 데이터가 다양한 범위에서 수집됩니다. 

 또한 데이터 수집 측정의 단계로 4가지 분류를 할 수 있습니다. level of measurement 로 nominal, ordinal, interval, ratio 가 있습니다. 




▶ Data Matrix, Chart


 Data matrix는 우리말로 자료행렬이라고 합니다. 이는 방대하고 많은 통계분석에 주로 이용합니다. 

cf. frequency table : (recoded) : show how the values are distributed over the cases


 도표에는 다양한 종류가 있습니다. 먼저 pie chart 는 % 활용 통계분석에 용이합니다. 특히 데이터 수집 레벨 nominal, ordinal 에서많이 활용합니다. 

그리고 막대그래프인 bar chart 는 정확한 수의 파악에 용이합니다. (qualitative) . Dot plot 은 many observation 을 바탕으로 Histogram 을 만듭니다.  그 종류로  bell shape - unimodal, bimodal(two peak) 혹은 한쪽으로 치우쳐진 skewed to the right, skewed to the left(longer left tail) 타입 등이 있습니다. 


그림 출처 : Wikipedia





▶ Mode, Median, Mean 평균값의 차이


  Mode, median, mean 모두 평균값을 나타내지만 각각에는 차이가 있습니다. 

예를들어 다음과 같은 값들이 있다고 가정해 봅니다. 


7, 8, 10, 10, 11, 15, 12, 10, 9, 10


-mode : mode 는 수집한 데이터에서 가장 빈번하게 발생되는 value 를 나타냅니다. 위에서 수집된 데이터로 보았을때는 

 mode 값은 10이 됩니다. 



-median : median 은 수집된 데이터의 중간값을 나타냅니다. 수집된 데이터를 일렬로 나열했을때 7,8,9,10,10,10,10,11,12,15 입니다. 

  가운데 값은 10이 되겠네요. single middle value 가 없을때는 가운데 두 개의 값의 평균이 median 이 됩니다. 



-mean : mean 은 우리가 알고있는 평균을 나타냅니다. 총 합을 데이터 개수로 나눈 값입니다. 

(7+8+10+10+11+15+12+10+9+10)/10 = 10.2 가 됩니다. 



반응형

댓글