버츄얼유튜버

R-19. 상관관계분석 개념&원리

두원공대88학번뚜뚜 2021. 11. 27. 01:56

두 연속형 변수 간의 상관 정도 파악

상관계수를 통해 표준화된 상관관계 도출

 

예) A사의 과거 10년간 TV광고비와 매출액간 자료와 아래와 같다. 두 변수간 상관관계?

년도 TV광고비(X) 매출액(Y)
2001 1 5
2002 1.5 5.5
2003 2 5.7
2004 2.3 5.2
2005 2.6 5.4
2006 3 5.8
2007 3.2 6
2008 3 6.1
2009 3.5 6.3
2010 4 8
평균 2.63 5.9

X의 움직임의 차이와 Y의 움직임의 차이를 각자 빼서 곱하면,

각 좌표와 평균을 계산하면 된다.

공분산 cov(3,6.1) = (2.63 - 3) * (5.9 - 6.1) = 0.074

 

어떤 점과 중심(평균)의 거리를 계산(by 제곱)한 것을 전부 더하면, 

만일 1, 3사분면에 주로 모여있는 경우엔 공분산은 양수가 될 것

반대로 2, 4사분면의 경우엔 거리를 계산하면 음수가 되므로, 공분산을 전부 다 더하면 음수

 

이러한 공분산은? X의 표준편차, Y의 표준편차로 나누면 된다.

상관관계(상관계수)는, 모든 X와 평균점, Y와 평균점을 뺀 것들을 곱한 다음, n-1로 나눈 것을, 

X독립변수와 Y독립변수의 표준편차를 곱한 것으로 나누면 된다.

원자료를 그 변수의 표준편차로 나누면 평균이 0, 표준편차가 1이 되는 데이터로 정형화됨.

X 역시, 0~1사이의 값으로 표준화됨. 

최종 합한 공분산 5.510을 9로 나누면, 0.6이 나오게 된다.

이를 x와 y의 표준편차의 곱 0.925, 9.842의 곱 0.779으로 나누면 0.786가 나오고, 

이 상관계수 0.786가 유의미한지 알아보기 위해서는,

검정통계량 t = 0.786/(오차)로 보면 된다. 

표본에서 얻어진 상관계수가 모집단을 추정할 때 나타나는 오차에 비해 얼마나 큰가?

일반적 한 변수에 대한 오차는, s/sqrt(n). 그러나 상관계수에선

sqrt((1-pow(r, 2) / (n - 2)). 이 때 2를 빼는 이유는, x와 y의 평균좌표가 이미 알려져 있기에 이에 대한 정보를 뺴는 것.

따라서 전체 데이터 수에서 이 2를 빼는 것.

1-pow(r, 2)는 상관이 없는 정도

이런 식으로 계산하면, 최종 t-value는 0.786/sqrt(0.3822/8) = 0.3596으로,

t분포에선 95%신뢰구간에서 오차의 2배정도가 유의미한데, 위 값은 3.5로 더 크다. 

따라서 유의미하다.

 

상관계수는, 여러 개의 데이터를 하나의 직선으로 일반화한 값.

그 직선에 많이 몰려있을 수록 상관계수가 1에 가깝다.