[기초] 통계학 요약 정리 1
▶ 통계기초, Variable, Statistical methods
통계는 기본적으로 두 가지 방법으로 분류 될 수 있습니다. 첫 번째로 기술통계 - descriptive statistic - 가 있습니다. 이는 수집한 정보를 정량적으로 묘사하거나, 혹은 요약하는 통계적 기법을 의미합니다. 두번째는 추리통계 - inferential statistic - 입니다. 이는 수집한 정보를 이용하여 추론하고, 예측하는 통계적 기법을 의미합니다.
우리가 수집하는 데이터들은 Variables 와 Case 로 나타낼 수 있습니다. Variables 는 어떠한 사물이나 대상의 특징을 나타내는 것이고 Case 는 어떠한 사물이나 대상 그 자체로 볼 수 있습니다.
예를 들어 야구에 대한 데이터를 수집한다고 가정해 봅시다. 야구선수들은 Cases 가 되겠고, 야구선수들의 키, 몸무게, 소속, 나이 등은 Variables 로 여겨집니다. Variables 는 데이터가 다양한 범위에서 수집됩니다.
또한 데이터 수집 측정의 단계로 4가지 분류를 할 수 있습니다. level of measurement 로 nominal, ordinal, interval, ratio 가 있습니다.
▶ Data Matrix, Chart
Data matrix는 우리말로 자료행렬이라고 합니다. 이는 방대하고 많은 통계분석에 주로 이용합니다.
cf. frequency table : (recoded) : show how the values are distributed over the cases
도표에는 다양한 종류가 있습니다. 먼저 pie chart 는 % 활용 통계분석에 용이합니다. 특히 데이터 수집 레벨 nominal, ordinal 에서많이 활용합니다.
그리고 막대그래프인 bar chart 는 정확한 수의 파악에 용이합니다. (qualitative) . Dot plot 은 many observation 을 바탕으로 Histogram 을 만듭니다. 그 종류로 bell shape - unimodal, bimodal(two peak) 혹은 한쪽으로 치우쳐진 skewed to the right, skewed to the left(longer left tail) 타입 등이 있습니다.
그림 출처 : Wikipedia
▶ Mode, Median, Mean 평균값의 차이
Mode, median, mean 모두 평균값을 나타내지만 각각에는 차이가 있습니다.
예를들어 다음과 같은 값들이 있다고 가정해 봅니다.
7, 8, 10, 10, 11, 15, 12, 10, 9, 10
-mode : mode 는 수집한 데이터에서 가장 빈번하게 발생되는 value 를 나타냅니다. 위에서 수집된 데이터로 보았을때는
mode 값은 10이 됩니다.
-median : median 은 수집된 데이터의 중간값을 나타냅니다. 수집된 데이터를 일렬로 나열했을때 7,8,9,10,10,10,10,11,12,15 입니다.
가운데 값은 10이 되겠네요. single middle value 가 없을때는 가운데 두 개의 값의 평균이 median 이 됩니다.
-mean : mean 은 우리가 알고있는 평균을 나타냅니다. 총 합을 데이터 개수로 나눈 값입니다.
(7+8+10+10+11+15+12+10+9+10)/10 = 10.2 가 됩니다.
'통계학' 카테고리의 다른 글
[통계]쉽게 익히는 정규분포[normal distribution] (0) | 2017.05.30 |
---|---|
[통계]쉽게 익히는 확률분포의 개념 (0) | 2017.05.29 |
[통계] 쉽게 익히는 베이즈 정리(Bayes' theorem) (0) | 2017.05.24 |
[기초] 통계학 요약 정리 4 (0) | 2017.05.19 |
[기초] 통계학 요약 정리 3 (0) | 2017.05.07 |
[기초] 통계학 요약 정리 2 (0) | 2017.05.06 |
댓글