Chap14. 독립표본 t-test 분석 실습 & 대응표본 t-test 분석
두 집단에서, 평균은 다르나 분포가 비슷하다면, t값을 계산하는 공식은
t = (mean(x1) - mean(x2))/(sqrt(var(x1)^2 / x1 + var(x2)^2 / x2))
등분산이어야, 원래의 t값 그대로 적용 가능
각 두 집단의 분포가 많이 다르다면, t값 그대로 사용 불가. 조정계수가 필요
분산에 대한 귀무가설 - X
두 집단 간의 분산차이가 X
t값이 0.05보다 커야 등분산이 됨. 아닐 시, 이분산.
---------------------------------------
대응표본 - 두 개의 변수의 차이 비교
귀무가설 - 사전, 사후점수간 차이가 없다
대립가설 - 차이가 있다고 할 때, 이의 검정통계량은 t값.
차이가 없다면, t값은 0이 된다. 클수록 t값이 커짐
예) 전국 매장 조사 결과, A제품 광고 전 매출이 100만원, 광고 후 120만원이 되었다. 전후 매출차 표준편차가 10만원일 때, 광고 전후 매출은 유의미한 차이가 있는가?
--> 귀무가설은, 전체 매장의 전후 차이의 평균이 0.
t값 : (100-120)/(10/sqrt(100)) = -20. 즉 차이가 없다는 귀무가설 기준으로, 유의수준인 0.05보다 큰
-20에 있으므로, 차이가 있다.
예2) 36명으로 구성된 A반에서, 평균 중간고사 점수 80점, 기말은 86점. 두 개의 차이의 표준편차는 4.
Z값을 구하고, 유의수준 0.05에서 유의한 차이가 있는가?
-->t값은 4/sqrt(36) = 0.666.... 이 오차에 의해, -6/0.66... = 약 -9이고, 이는 95%신뢰구간보다 더 끝에 있다.
즉, 점수가 올랐다고 볼 수 있다.
---------------------------------------------------------------
<분산분석>
세 집단 이상간의 평균차이 분석
예) 타이어 제조시, 온도를 달리할 때
측정치 | 60도 | 65도 | 70도 | 75도 | |
1 | 8.44 | 8.59 | 9.34 | 8.92 | |
2 | 8.36 | 8.91 | 9.41 | 8.92 | |
3 | 8.28 | 8.60 | 9.69 | 8.74 | |
합계 | 25.08 | 26.10 | 28.44 | 26.58 | 106.2 |
평균 | 8.36 | 8.70 | 9.48 | 8.86 | 8.85 |
여러 집단을 한꺼번에 비교하는 방법론
1) 각각의 평균과 전체 평균을 비교, 즉 전체와 60도, 전체와 65도... 등을 비교한 다음,
전부 합친다. 그럼 전체 중앙이 되는 평균과, 각 집단의 평균차가 클수록 온도에 따라 달라진다는 것을 알 수 있다.
집단간 차이 | 0.24 | 0.02 | 0.40 | 0.00 | |
집단간 분산 | 0.72 | 0.06 | 1.20 | 0.00 | 1.979 |
2) 전체평균과 각 집단의 평균의 차이 : 약 0.49정도의 차이가 있다. 이를 빼서 제곱을 한다.
이러면, 집단간 차이가 나오게 된다. 여기에, 모집단 크기 등의 변수를 보정하기 위해, 전체평균과 각 평균의 차이의 제곱에 표본을 가중한 것(집단간 분산)을 이용. 이를 다 더하면 1.979가 나옴. 이를 집단간 제곱합이라 함. 이게 크면 클수록, 집단에 따라 평균의 차이가 크다. 독립변수(온도)에 따라, 강도(결과)가 달라짐.
요인 | 제곱합 | 자유도(df) | 평균제곱 | F-value | |
집단간 | 1.979 | 3 | 0.659 | 31.381 | |
집단내 | 0.169 | 8 | 0.021 | ||
합계 |
3) 1.979를, 집단(4개)의 개수에 따라 나눠야 하는데, 여기에 1을뺀만큼 곱해야 함. 즉, 자유도=4-1=3개(한 집단의 정보를 알려져 있다고 가정)로 나눔. 한 집단간 나타나는 평균의 강도가, 평균제곱이 클 수록 독립변수에 의한 차이가 큼.
4)60도일 때 평균 8.36. 3번의 결과가 전부 동일하다면(예: 3번 결과 다 8.36), 온도가 강도의 모든 요인을 결정한다고 할 수 있다. 개체차가 적을 수록, 해당 요인에 의해 결정된다.
8.44(측정값)-8.36(평균) = 0.08이, 온도 외적 요인에 의한 결정량. 이를 제곱한 0.006. 이를 표로 만들면,
1 | 0.006 | 0.012 | 0.020 | 0.004 | |
2 | 0.000 | 0.044 | 0.005 | 0.004 | |
3 | 0.006 | 0.010 | 0.044 | 0.014 |
이를 다 더한 것이, 집단 내 분산(0.169). 각 집단 내의 개체차에 대해 논하므로. 작을수록, 독립변수에 의해 값이 흔들리지 않으므로 좋은 상황. 이 역시, 표본수 12개(4개 측정기준 * 3개 측정량)-1 - 집단간 자유도 = 8개로 나눠야 한다.
각 개체 1개당 양은 0.021.
5) 검정통계량의 구조 : (분자 : 평균차or회귀... / 분모 : 오차)
따라서, 집단내 평균제곱 - 한 표본당 오차, 집단간 평균제곱 - 한 집단간 평균적 차
따라서, 이를 나눠주면, 31.381이라는 F-value가 나옴.
이 31.381의 T값은, 분산분석표에 의하면, 자유도집단수 3, 표본수 8에서 2.92가 가설이 채택되는 기준.
상당히 크므로, 비채택.
----------------------------------------------
판매장소 | 디자인1 | 디자인2 | 디자인3 | 디자인4 | |
강남 | 26 | 31 | 27 | 30 | |
강서 | 28 | 28 | 25 | 29 | |
강동 | 25 | 30 | 28 | 32 | |
강북 | 29 | 27 | 24 | 31 | |
인천 | 27 | 29 | 26 | 32 | |
수원 | 27 | 29 | 26 | 32 | |
평균 | 27 | 29 | 26 | 31 | 28.25 |
요인 | 제곱합 | 자유도 | 평균제곱 | F-value |
집단간 | 88.5 | 3 | 29.5 | 15.526 |
집단내 | 38.0 | 20 | 1.9 | |
합계 | 126.5 | 23 |
디자인 당 판매에 차이가 있는가?
1) 28.25와 27의 차이, 1.25를 제곱. 6지역이니, 6으로 곱한다음 다 더하면, 88.5 나옴. 이 값이 클수록, 디자인에 따라 판매량이 달라진다는 유추가 가능. 이를 3으로 나눈 29.5= 한 집단간 평균과의 차이
2) 강남, 강서 등 각 차이를 빼서 제곱하고 더하면 38. 이를 24-3-1 = 20으로 나누면, 1.9 등장. 한 표본당 오차.
차이/오차 하면, F값은 15.526. 이는, 2.38인 F값이 기각, 채택되는 기준이므로, 이보다 크기에, 귀무가설 기각됨.