R-19. 상관관계분석 개념&원리
두 연속형 변수 간의 상관 정도 파악
상관계수를 통해 표준화된 상관관계 도출
예) A사의 과거 10년간 TV광고비와 매출액간 자료와 아래와 같다. 두 변수간 상관관계?
년도 | TV광고비(X) | 매출액(Y) |
2001 | 1 | 5 |
2002 | 1.5 | 5.5 |
2003 | 2 | 5.7 |
2004 | 2.3 | 5.2 |
2005 | 2.6 | 5.4 |
2006 | 3 | 5.8 |
2007 | 3.2 | 6 |
2008 | 3 | 6.1 |
2009 | 3.5 | 6.3 |
2010 | 4 | 8 |
평균 | 2.63 | 5.9 |
X의 움직임의 차이와 Y의 움직임의 차이를 각자 빼서 곱하면,
각 좌표와 평균을 계산하면 된다.
공분산 cov(3,6.1) = (2.63 - 3) * (5.9 - 6.1) = 0.074
어떤 점과 중심(평균)의 거리를 계산(by 제곱)한 것을 전부 더하면,
만일 1, 3사분면에 주로 모여있는 경우엔 공분산은 양수가 될 것
반대로 2, 4사분면의 경우엔 거리를 계산하면 음수가 되므로, 공분산을 전부 다 더하면 음수
이러한 공분산은? X의 표준편차, Y의 표준편차로 나누면 된다.
상관관계(상관계수)는, 모든 X와 평균점, Y와 평균점을 뺀 것들을 곱한 다음, n-1로 나눈 것을,
X독립변수와 Y독립변수의 표준편차를 곱한 것으로 나누면 된다.
원자료를 그 변수의 표준편차로 나누면 평균이 0, 표준편차가 1이 되는 데이터로 정형화됨.
X 역시, 0~1사이의 값으로 표준화됨.
최종 합한 공분산 5.510을 9로 나누면, 0.6이 나오게 된다.
이를 x와 y의 표준편차의 곱 0.925, 9.842의 곱 0.779으로 나누면 0.786가 나오고,
이 상관계수 0.786가 유의미한지 알아보기 위해서는,
검정통계량 t = 0.786/(오차)로 보면 된다.
표본에서 얻어진 상관계수가 모집단을 추정할 때 나타나는 오차에 비해 얼마나 큰가?
일반적 한 변수에 대한 오차는, s/sqrt(n). 그러나 상관계수에선
sqrt((1-pow(r, 2) / (n - 2)). 이 때 2를 빼는 이유는, x와 y의 평균좌표가 이미 알려져 있기에 이에 대한 정보를 뺴는 것.
따라서 전체 데이터 수에서 이 2를 빼는 것.
1-pow(r, 2)는 상관이 없는 정도
이런 식으로 계산하면, 최종 t-value는 0.786/sqrt(0.3822/8) = 0.3596으로,
t분포에선 95%신뢰구간에서 오차의 2배정도가 유의미한데, 위 값은 3.5로 더 크다.
따라서 유의미하다.
상관계수는, 여러 개의 데이터를 하나의 직선으로 일반화한 값.
그 직선에 많이 몰려있을 수록 상관계수가 1에 가깝다.