본문 바로가기

통계학

[기초] 통계학 요약 정리 3

by m_ahh 2017. 5. 7.
반응형


[기초] 통계학 요약 정리 3




▶ Correalation, Pearson's R(피어슨 R)


 Correalation 은 상관관계이다. Scatter plot 은 Quantitative variables 을 나타내는데 사용할 수 있다. 더욱 일직선 형태로 나타날 수록 더 Strong linear realation 을 나타낸다. 

 피어슨의 상관계수는 상관계수의 한 형태로, 변수 X와 Y간의 선형적 관계성의 척도를 -1 에서1 사이의 값에서 나타내는 것이다. 즉 Scatter plot 의 Strong 혹은 weak 정도를 나타낸 것이 피어슨 상관계수라고 볼 수 있다.  

 피어슨 상관계수의 값이 -1 이라면 perfect negative 를 나타내고 1 이라면 perfect positive 를 나타낸다. 만약 0 값이라면 어떤 관계도 없음을 나타낸다. 

 피어슨 상관계수의 계산법은 다음과 같다. 피어슨 상관계수를 사용할때 주의 할 점은 이 함수가 선형함수인지 꼭 확인해야한다는 것이다. 선형함수가 아니라면 피어슨상관계수가 적용되지 않는다. 


 




▶ Regression Line(회귀선)

  회귀선이란 Squared Residuals 의 합이 가장작은 선을 의미한다. 제곱을 하는 의미는 음수와 양수 문제를 해결함에 있다. 회귀선의 공식은 y=a+bx 로 나타날수 있는데 y 는 예상되는 y의 값을 나타내고, a는 y절편, b는 회귀곡선의 회귀 계수를 의미한다.  

 회귀선은 종종 수집된 데이터의 경향성에 따라 곡선적 관계를 가지게 되는데 이 경우에는 회귀곡선, Curvelinear regression 이라고 한다. 회귀직선이나 회귀곡선을 규정하는 기준은 least sqaure criterion(최소자승법) 에 있다. 회귀선을 계산할때는 standard deviation 을 이용한다. Understandardized pearson's R 하여 회귀 계수를 구한 뒤에 a = y - bx 공식에 넣고 a 를 구한다. 이 과정에서 rounding error 로 오차가 조금 발생하게 된다.



 

▶ Regression line 추가 설명
 How well does the line fit the data? 는 prediction 을 의미하고 r^2으로 판단할 수 있다. 이 r^2 은 변수들의 평균값보다 regression line 이 얼마나 더 잘 예측하는지를 알려준다. (how much better a regression line predicts than the mean of the variables). r^2은 단순히 피어슨의 r을 제곱한 것이다. 
 즉, 피어슨의 r 은 Direction and strength of relation 을 나타내고, r^2은 이 회귀곡선이 얼마나 잘 예측하고 있는지를 표현해준다. 

▶ 조심해야 하는 통계적 해석 두가지!
 첫번째로는 "Correalation" is NOT "Causation" 이라는 것이다. 그리고 두번째는 Outliers 를 조심해야 한다는 것이다. 


▶Contigency Table 은 항상 % 계산을 한다. 


반응형

댓글