[기초] 통계학 요약 정리 2
▶ Box Plot (상자그림)
7, 8, 10, 10, 11, 15, 12, 10, 9, 1
통계학에서 범위, Range 란 데이터 값들이 분포되어있는 방식을 계산하는 방법으로 Highest value - Lowest value 를 해주면 된다. 장점으로는 쉽고 간편하다. 단점으로는 Variability 정보가 크게 나타나지 않는다는 것이다. 위의 데이터 집합에서 range 를 구하면 15 - 1 = 14 이 된다.
또한 Interquartile Range 라는 것이 있다. 우리말로 사분범위라고 하는데, 사분범위가 크면 보다 흩어진 분포를 보이고, 사분범위가 작으면 밀집된 분포를 지닌 것이다. 또한 자료의 extreme value 에 대해 영향을 덜 받게 되는 장점이 있다.
Box plot 은 최댓값, 최솟값, 중앙값, 사분편차를 이용하여 자료의 분포 형태를 알 수있도록 하는 상자그림을 의미한다. 또한 Outlier 의 개수, 비대칭 여부 등을 파악할 수 있다.
▶Variance(분산) and Standard deviation(표준편차)
분산은 데이터의 분포가 얼마나 퍼져있는지 알려주는 수치이다. 분산이 크다면 넓은 분포를 가지고 있는 것이고, 값들이 평균으로 부터 더 널리 퍼져있음을 나타낸다.
분산을 나타내는 식은 다음과 같다.
분산을 구할 때에는 (1) 평균을 구한다. (2) 각각의 값에서 평균을 뺀 값을 제곱을 한다. (3) 제곱값들을 더해준다. (4) 합한 값을 전체 sample size -1 으로 나눠준다.
표준편차는 평균으로 부터 데이터 값들이 얼마나 흩어져있는지 나타낸다. 자료의 값들의 평균을 알더라도, 분포도에 따른 데이터의 특징은 달라진다. 표준편차는 분산에 루트를 씌워 구할 수 있다.
▶Z-score , Standardization
Z-score 은 표준점수라고도 부른다. 모든 Z 점수의 합은 0 이되고, 이는 exceptional value 파악에 유용하다. Z 점수가 음수라면 값은 평균이하이고, 양수라 면 평균이상의 값이다. Standardization 은 recode origianl scores into Z-scores 하는 과정이다.
'통계학' 카테고리의 다른 글
[통계]쉽게 익히는 정규분포[normal distribution] (0) | 2017.05.30 |
---|---|
[통계]쉽게 익히는 확률분포의 개념 (0) | 2017.05.29 |
[통계] 쉽게 익히는 베이즈 정리(Bayes' theorem) (0) | 2017.05.24 |
[기초] 통계학 요약 정리 4 (0) | 2017.05.19 |
[기초] 통계학 요약 정리 3 (0) | 2017.05.07 |
[기초] 통계학 요약 정리 1 (2) | 2017.05.06 |
댓글