검정

T-검정

모수적 통계검정으로, 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 통하여 검정하는 방법
두 집단의 속성을 비교할 때 속성의 평균 차이에 근거해 판단을 함
가정 조건
종속변수는 양적변수이다
모집단의 분산과 표준편차는 모른다.
모집단의 분포는 정규분포를 따른다
귀무가설/대립가설
귀무가설 : 두 집단간 평균 차이가 없다
대립가설 : 두 집단의 평균에는 차이가 있다

Student`s-T 분포

\[X ~ \frac{Z}{\sqrt {V/v}}\]
- Z : 표준정규분포, V : 카이제곱분포, v : 자유도
- 종모양의 대칭형
- 자유도가 커질수록 표준정규분포에 가까운 형태

T-검정 종류

딘일표본 T검정(one sample t-test)
독립표본 T검정(Two (independent) sample t-test)
대응표본 T검정(Two dependent sample t-test)

단일표본

표본이 하나일 때, 모집단의 평균과 표본집단의 평균 사이에 차이가 있는지를 검증하는 방법

예제

평균 알코올 섭취량 8.1g

데이터 : 15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97

95%기준

 x <- c(15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97)
 c(mean(x), var(x))
 t = (mean(x) - 8.1)/(sqrt(var(x)/length(x)))
 -qt(0.025, 9)
 t.test(x, mu = 8.1)
 t

독립표본

독립적으로 존재하는 두 집단 간의 평균 차이를 검증하는 통계분석 기법
가정
- 독립성 : 독립된 2개 집단
- 정규성 : 독립변수에 따른 종속변수는 정규분포
- 등분산성 : 독립변수에 따른 종속변수 분포의 분산은 집단마다 동일

두 모분산의 관계

등분산성
- \(합동표본분산(가중평균) S^2_p = \frac{n_1 - 1}{(n_1-1) + (n_2-1)}S^2_1 + \frac{n_2 - 1}{(n_1-1)(n_2 - 1)}S^2_2\) \(df = n_1 + n_2 - 2\)
- 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}} \sim t_{n_1 + n_2 - 2}\)
- 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{n_1 + n_2 -2, \frac{\alpha}{2} \sqrt{S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}}\)
등분산성 아님
- 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}} \sim t_v\)
- 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{v, \frac{\alpha}{2}\sqrt{\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}}\)

예제

초등학교 1학년 남자와 여자의 혈압 차이

남자 : 114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106

여자 : 108, 98, 88, 86, 100, 98, 104, 102, 94

95% 기준

 x1 <- c(114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106)
 x2 <- c(108, 98, 88, 86, 100, 98, 104, 102, 94)
 mu1 = mean(x1)
 mu2 = mean(x2)
 sp2 = ((length(x1)-1) * var(x1) + ((length(x2) - 1) * var(x2)))/(length(x1) + length(x2) - 2)
 t = (mu1 - mu2)/sqrt(sp2 * (1/length(x1)+1/length(x2)))
 -qt(0.025, 23)
 t.test(x1, x2, var.equal = T)

예제

mtcars의 am과 mpg

mtcars
str(mtcars)
head(mtcars) #95%기준
#등분산성 확인
var.test(mtcars[mtcars$am==1, 1], mtcars[mtcars$am==0, 1])
#분산이 같을 경우
t.test(mtcars[mtcars$am==0, 1], mtcars[mtcars$am==1, 1], var.equal = TRUE)
#분산이 다를 경우 var.equal = FALSE 사용용
t.test(mpg~am, data = mtcars, var.equal = FALSE)

대응표본

두 집단은 사실, 한 집단을 어느 한 시점(기준)을 중심으로 전후를 비교하는것
쌍을 이룬 두 변수 간에 차이의 평균이 ‘o’인지를 검정
검정통계량 \(t_{\bar D} = \frac{\bar D - \mu_D}{\sqrt {\frac{S^2_D}{n}}} \sim t_{n-1}\)
신뢰구간 \(\bar d \pm t_{n-1, \frac{\alpha}{2} \sqrt{\frac{S^2_d}{n}}}\)

예제

공장지대가 미치는 가축들의 불소 농도 변화

가축	1	2	3	4	5	6	7	8	9	10	11
초기	24.7	46.1	18.5	29.5	26.3	33.9	23.1	20.7	18.0	19.3	23.0
이후	12.4	14.1	7.6	9.5	19.7	10.6	9.1	11.5	13.3	8.3	15.0

95%기준

be = c(24.7,46.1,18.5,29.5,26.3,33.9,23.1,20.7,18.0,19.3,23.0)
af = c(12.4,14.1,7.6,9.5,19.7,10.6,9.1,11.5,13.3,8.3,15.0)
diffz = be - af
c(mean(diffz), var(diffz))
tt = mean(diffz)/sqrt(var(diffz)/length(diffz))
qt(0.025, 10, lower.tail = F)
t.test(be, af, paired = T)

예제 2

A반의 중간, 기말 평균 비교

mid = c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
fin = c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
t.test(mid, fin, paired = TRUE)

참고

모집단의 분산을 아는 경우나 또는 표본수가 많은 경우는 “중심극한정리”에 의하여 근사적으로 정규분포를 따른다고 생각할 수 있다.

Jayiuk Blog

검정

검정

T-검정

가정 조건

귀무가설/대립가설

Student`s-T 분포

T-검정 종류

단일표본

예제

독립표본

두 모분산의 관계

예제

예제

대응표본

예제

예제 2

참고