버츄얼유튜버

Chap14. 독립표본 t-test 분석 실습 & 대응표본 t-test 분석

두원공대88학번뚜뚜 2021. 11. 24. 19:04

두 집단에서, 평균은 다르나 분포가 비슷하다면, t값을 계산하는 공식은

t = (mean(x1) - mean(x2))/(sqrt(var(x1)^2 / x1 + var(x2)^2 / x2))

등분산이어야, 원래의 t값 그대로 적용 가능

각 두 집단의 분포가 많이 다르다면, t값 그대로 사용 불가. 조정계수가 필요

 

분산에 대한 귀무가설 - X

두 집단 간의 분산차이가 X

t값이 0.05보다 커야 등분산이 됨. 아닐 시, 이분산.

 

---------------------------------------

대응표본 - 두 개의 변수의 차이 비교

귀무가설 - 사전, 사후점수간 차이가 없다

대립가설 - 차이가 있다고 할 때,  이의 검정통계량은 t값.

차이가 없다면, t값은 0이 된다. 클수록 t값이 커짐

 

예) 전국 매장 조사 결과, A제품 광고 전 매출이 100만원, 광고 후 120만원이 되었다. 전후 매출차 표준편차가 10만원일 때, 광고 전후 매출은 유의미한 차이가 있는가?

--> 귀무가설은, 전체 매장의 전후 차이의 평균이 0.

 

t값 : (100-120)/(10/sqrt(100)) = -20. 즉 차이가 없다는 귀무가설 기준으로, 유의수준인 0.05보다 큰

-20에 있으므로, 차이가 있다.

 

예2) 36명으로 구성된 A반에서, 평균 중간고사 점수 80점, 기말은 86점. 두 개의 차이의 표준편차는 4.

Z값을 구하고, 유의수준 0.05에서 유의한 차이가 있는가?

 

-->t값은 4/sqrt(36) = 0.666.... 이 오차에 의해, -6/0.66... = 약 -9이고, 이는 95%신뢰구간보다 더 끝에 있다.

즉, 점수가 올랐다고 볼 수 있다.

 

---------------------------------------------------------------

<분산분석>

세 집단 이상간의 평균차이 분석

예) 타이어 제조시, 온도를 달리할 때

측정치 60도 65도 70도 75도  
1 8.44 8.59 9.34 8.92  
2 8.36 8.91 9.41 8.92  
3 8.28 8.60 9.69 8.74  
합계 25.08 26.10 28.44 26.58 106.2
평균 8.36 8.70 9.48 8.86 8.85

여러 집단을 한꺼번에 비교하는 방법론

1) 각각의 평균과 전체 평균을 비교, 즉 전체와 60도, 전체와 65도... 등을 비교한 다음,

전부 합친다. 그럼 전체 중앙이 되는 평균과, 각 집단의 평균차가 클수록 온도에 따라 달라진다는 것을 알 수 있다.

집단간 차이 0.24 0.02 0.40 0.00  
집단간 분산 0.72 0.06 1.20 0.00 1.979

2) 전체평균과 각 집단의 평균의 차이 : 약 0.49정도의 차이가 있다. 이를 빼서 제곱을 한다.

이러면, 집단간 차이가 나오게 된다. 여기에, 모집단 크기 등의 변수를 보정하기 위해, 전체평균과 각 평균의 차이의 제곱에 표본을 가중한 것(집단간 분산)을 이용. 이를 다 더하면 1.979가 나옴. 이를 집단간 제곱합이라 함. 이게 크면 클수록, 집단에 따라 평균의 차이가 크다. 독립변수(온도)에 따라, 강도(결과)가 달라짐.

요인 제곱합 자유도(df) 평균제곱 F-value  
집단간 1.979 3 0.659 31.381  
집단내 0.169 8 0.021    
합계          

3) 1.979를, 집단(4개)의 개수에 따라 나눠야 하는데, 여기에 1을뺀만큼 곱해야 함. 즉, 자유도=4-1=3개(한 집단의 정보를 알려져 있다고 가정)로 나눔. 한 집단간 나타나는 평균의 강도가, 평균제곱이 클 수록 독립변수에 의한 차이가 큼.

 

4)60도일 때 평균 8.36. 3번의 결과가 전부 동일하다면(예: 3번 결과 다 8.36), 온도가 강도의 모든 요인을 결정한다고 할 수 있다. 개체차가 적을 수록, 해당 요인에 의해 결정된다.

8.44(측정값)-8.36(평균) = 0.08이, 온도 외적 요인에 의한 결정량. 이를 제곱한 0.006. 이를 표로 만들면,

1 0.006 0.012 0.020 0.004  
2 0.000 0.044 0.005 0.004  
3 0.006 0.010 0.044 0.014  

이를 다 더한 것이, 집단 내 분산(0.169). 각 집단 내의 개체차에 대해 논하므로. 작을수록, 독립변수에 의해 값이 흔들리지 않으므로 좋은 상황. 이 역시, 표본수 12개(4개 측정기준 * 3개 측정량)-1 - 집단간 자유도 = 8개로 나눠야 한다.

각 개체 1개당 양은 0.021.

 

5) 검정통계량의 구조 : (분자 : 평균차or회귀... / 분모 : 오차)

따라서, 집단내 평균제곱 - 한 표본당 오차, 집단간 평균제곱 - 한 집단간 평균적 차

따라서, 이를 나눠주면, 31.381이라는 F-value가 나옴.

 

이 31.381의 T값은, 분산분석표에 의하면, 자유도집단수 3, 표본수 8에서 2.92가 가설이 채택되는 기준.

상당히 크므로, 비채택.

----------------------------------------------

판매장소 디자인1 디자인2 디자인3 디자인4  
강남 26 31 27 30  
강서 28 28 25 29  
강동 25 30 28 32  
강북 29 27 24 31  
인천 27 29 26 32  
수원 27 29 26 32  
평균 27 29 26 31 28.25
요인 제곱합 자유도 평균제곱 F-value
집단간 88.5 3 29.5 15.526
집단내 38.0 20 1.9  
합계 126.5 23    

디자인 당 판매에 차이가 있는가?

1) 28.25와 27의 차이, 1.25를 제곱. 6지역이니, 6으로 곱한다음 다 더하면, 88.5 나옴. 이 값이 클수록, 디자인에 따라 판매량이 달라진다는 유추가 가능. 이를 3으로 나눈 29.5= 한 집단간 평균과의 차이

2) 강남, 강서 등 각 차이를 빼서 제곱하고 더하면 38. 이를 24-3-1 = 20으로 나누면, 1.9 등장. 한 표본당 오차.

차이/오차 하면, F값은 15.526. 이는, 2.38인 F값이 기각, 채택되는 기준이므로, 이보다 크기에, 귀무가설 기각됨.