검정
T-검정
- 모수적 통계검정으로, 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 통하여 검정하는 방법
- 두 집단의 속성을 비교할 때 속성의 평균 차이에 근거해 판단을 함
가정 조건
- 종속변수는 양적변수이다
- 모집단의 분산과 표준편차는 모른다.
- 모집단의 분포는 정규분포를 따른다
귀무가설/대립가설
- 귀무가설 : 두 집단간 평균 차이가 없다
- 대립가설 : 두 집단의 평균에는 차이가 있다
Student`s-T 분포
-
\[X ~ \frac{Z}{\sqrt {V/v}}\]
- Z : 표준정규분포, V : 카이제곱분포, v : 자유도
- 종모양의 대칭형
- 자유도가 커질수록 표준정규분포에 가까운 형태
T-검정 종류
- 딘일표본 T검정(one sample t-test)
- 독립표본 T검정(Two (independent) sample t-test)
- 대응표본 T검정(Two dependent sample t-test)
단일표본
- 표본이 하나일 때, 모집단의 평균과 표본집단의 평균 사이에 차이가 있는지를 검증하는 방법
예제
- 평균 알코올 섭취량 8.1g
- 데이터 : 15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97
- 95%기준
x <- c(15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97) c(mean(x), var(x)) t = (mean(x) - 8.1)/(sqrt(var(x)/length(x))) -qt(0.025, 9) t.test(x, mu = 8.1) t
독립표본
- 95%기준
- 독립적으로 존재하는 두 집단 간의 평균 차이를 검증하는 통계분석 기법
- 가정
- 독립성 : 독립된 2개 집단
- 정규성 : 독립변수에 따른 종속변수는 정규분포
- 등분산성 : 독립변수에 따른 종속변수 분포의 분산은 집단마다 동일
두 모분산의 관계
- 등분산성
- \(합동표본분산(가중평균) S^2_p = \frac{n_1 - 1}{(n_1-1) + (n_2-1)}S^2_1 + \frac{n_2 - 1}{(n_1-1)(n_2 - 1)}S^2_2\) \(df = n_1 + n_2 - 2\)
- 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}} \sim t_{n_1 + n_2 - 2}\)
- 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{n_1 + n_2 -2, \frac{\alpha}{2} \sqrt{S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}}\)
- 등분산성 아님
- 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}} \sim t_v\)
- 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{v, \frac{\alpha}{2}\sqrt{\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}}\)
예제
- 초등학교 1학년 남자와 여자의 혈압 차이
- 남자 : 114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106
- 여자 : 108, 98, 88, 86, 100, 98, 104, 102, 94
- 95% 기준
x1 <- c(114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106) x2 <- c(108, 98, 88, 86, 100, 98, 104, 102, 94) mu1 = mean(x1) mu2 = mean(x2) sp2 = ((length(x1)-1) * var(x1) + ((length(x2) - 1) * var(x2)))/(length(x1) + length(x2) - 2) t = (mu1 - mu2)/sqrt(sp2 * (1/length(x1)+1/length(x2))) -qt(0.025, 23) t.test(x1, x2, var.equal = T)
- 95% 기준
예제
- mtcars의 am과 mpg
mtcars str(mtcars) head(mtcars) #95%기준 #등분산성 확인 var.test(mtcars[mtcars$am==1, 1], mtcars[mtcars$am==0, 1]) #분산이 같을 경우 t.test(mtcars[mtcars$am==0, 1], mtcars[mtcars$am==1, 1], var.equal = TRUE) #분산이 다를 경우 var.equal = FALSE 사용용 t.test(mpg~am, data = mtcars, var.equal = FALSE)
대응표본
- 두 집단은 사실, 한 집단을 어느 한 시점(기준)을 중심으로 전후를 비교하는것
- 쌍을 이룬 두 변수 간에 차이의 평균이 ‘o’인지를 검정
- 검정통계량 \(t_{\bar D} = \frac{\bar D - \mu_D}{\sqrt {\frac{S^2_D}{n}}} \sim t_{n-1}\)
- 신뢰구간 \(\bar d \pm t_{n-1, \frac{\alpha}{2} \sqrt{\frac{S^2_d}{n}}}\)
예제
- 공장지대가 미치는 가축들의 불소 농도 변화
가축 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
---|---|---|---|---|---|---|---|---|---|---|---|
초기 | 24.7 | 46.1 | 18.5 | 29.5 | 26.3 | 33.9 | 23.1 | 20.7 | 18.0 | 19.3 | 23.0 |
이후 | 12.4 | 14.1 | 7.6 | 9.5 | 19.7 | 10.6 | 9.1 | 11.5 | 13.3 | 8.3 | 15.0 |
- 95%기준
be = c(24.7,46.1,18.5,29.5,26.3,33.9,23.1,20.7,18.0,19.3,23.0) af = c(12.4,14.1,7.6,9.5,19.7,10.6,9.1,11.5,13.3,8.3,15.0) diffz = be - af c(mean(diffz), var(diffz)) tt = mean(diffz)/sqrt(var(diffz)/length(diffz)) qt(0.025, 10, lower.tail = F) t.test(be, af, paired = T)
예제 2
- A반의 중간, 기말 평균 비교
mid = c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
fin = c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
t.test(mid, fin, paired = TRUE)
참고
- 모집단의 분산을 아는 경우나 또는 표본수가 많은 경우는 “중심극한정리”에 의하여 근사적으로 정규분포를 따른다고 생각할 수 있다.