[기초] 통계학 요약 정리 3
▶ Correalation, Pearson's R(피어슨 R)
Correalation 은 상관관계이다. Scatter plot 은 Quantitative variables 을 나타내는데 사용할 수 있다. 더욱 일직선 형태로 나타날 수록 더 Strong linear realation 을 나타낸다.
피어슨의 상관계수는 상관계수의 한 형태로, 변수 X와 Y간의 선형적 관계성의 척도를 -1 에서1 사이의 값에서 나타내는 것이다. 즉 Scatter plot 의 Strong 혹은 weak 정도를 나타낸 것이 피어슨 상관계수라고 볼 수 있다.
피어슨 상관계수의 값이 -1 이라면 perfect negative 를 나타내고 1 이라면 perfect positive 를 나타낸다. 만약 0 값이라면 어떤 관계도 없음을 나타낸다.
피어슨 상관계수의 계산법은 다음과 같다. 피어슨 상관계수를 사용할때 주의 할 점은 이 함수가 선형함수인지 꼭 확인해야한다는 것이다. 선형함수가 아니라면 피어슨상관계수가 적용되지 않는다.
▶ Regression Line(회귀선)
회귀선이란 Squared Residuals 의 합이 가장작은 선을 의미한다. 제곱을 하는 의미는 음수와 양수 문제를 해결함에 있다. 회귀선의 공식은 y=a+bx 로 나타날수 있는데 y 는 예상되는 y의 값을 나타내고, a는 y절편, b는 회귀곡선의 회귀 계수를 의미한다.
회귀선은 종종 수집된 데이터의 경향성에 따라 곡선적 관계를 가지게 되는데 이 경우에는 회귀곡선, Curvelinear regression 이라고 한다. 회귀직선이나 회귀곡선을 규정하는 기준은 least sqaure criterion(최소자승법) 에 있다. 회귀선을 계산할때는 standard deviation 을 이용한다. Understandardized pearson's R 하여 회귀 계수를 구한 뒤에 a = y - bx 공식에 넣고 a 를 구한다. 이 과정에서 rounding error 로 오차가 조금 발생하게 된다.
'통계학' 카테고리의 다른 글
[통계]쉽게 익히는 정규분포[normal distribution] (0) | 2017.05.30 |
---|---|
[통계]쉽게 익히는 확률분포의 개념 (0) | 2017.05.29 |
[통계] 쉽게 익히는 베이즈 정리(Bayes' theorem) (0) | 2017.05.24 |
[기초] 통계학 요약 정리 4 (0) | 2017.05.19 |
[기초] 통계학 요약 정리 2 (0) | 2017.05.06 |
[기초] 통계학 요약 정리 1 (2) | 2017.05.06 |
댓글