본문 바로가기

통계학

[기초] 통계학 요약 정리 2

by m_ahh 2017. 5. 6.
반응형

[기초] 통계학 요약 정리 2



▶ Box Plot (상자그림)

7, 8, 10, 10, 11, 15, 12, 10, 9, 1


 통계학에서 범위, Range 란 데이터 값들이 분포되어있는 방식을 계산하는 방법으로 Highest value - Lowest value 를 해주면 된다. 장점으로는 쉽고 간편하다. 단점으로는 Variability 정보가 크게 나타나지 않는다는 것이다. 위의 데이터 집합에서 range 를 구하면 15 - 1 = 14 이 된다. 


 또한 Interquartile Range 라는 것이 있다. 우리말로 사분범위라고 하는데, 사분범위가 크면 보다 흩어진 분포를 보이고, 사분범위가 작으면 밀집된 분포를 지닌 것이다. 또한 자료의 extreme value 에 대해 영향을 덜 받게 되는 장점이 있다.


 Box plot 은 최댓값, 최솟값, 중앙값, 사분편차를 이용하여 자료의 분포 형태를 알 수있도록 하는 상자그림을 의미한다. 또한 Outlier 의 개수, 비대칭 여부 등을 파악할 수 있다.







▶Variance(분산) and Standard deviation(표준편차)


 분산은 데이터의 분포가 얼마나 퍼져있는지 알려주는 수치이다. 분산이 크다면 넓은 분포를 가지고 있는 것이고, 값들이 평균으로 부터 더 널리 퍼져있음을 나타낸다. 

 분산을 나타내는 식은 다음과 같다.


 분산을 구할 때에는 (1) 평균을 구한다. (2) 각각의 값에서 평균을 뺀 값을 제곱을 한다. (3) 제곱값들을 더해준다. (4) 합한 값을 전체 sample size -1 으로 나눠준다. 


 표준편차는 평균으로 부터 데이터 값들이 얼마나 흩어져있는지 나타낸다. 자료의 값들의 평균을 알더라도, 분포도에 따른 데이터의 특징은 달라진다. 표준편차는 분산에 루트를 씌워 구할 수 있다.



▶Z-score , Standardization

 Z-score 은 표준점수라고도 부른다. 모든 Z 점수의 합은 0 이되고, 이는 exceptional value 파악에 유용하다. Z 점수가 음수라면 값은 평균이하이고, 양수라  면 평균이상의 값이다.  Standardization 은 recode origianl scores into Z-scores 하는 과정이다.




반응형

댓글