검정


검정

T-검정

  • 모수적 통계검정으로, 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 통하여 검정하는 방법
  • 두 집단의 속성을 비교할 때 속성의 평균 차이에 근거해 판단을 함

    가정 조건

  • 종속변수는 양적변수이다
  • 모집단의 분산과 표준편차는 모른다.
  • 모집단의 분포는 정규분포를 따른다

    귀무가설/대립가설

  • 귀무가설 : 두 집단간 평균 차이가 없다
  • 대립가설 : 두 집단의 평균에는 차이가 있다

Student`s-T 분포

  • \[X ~ \frac{Z}{\sqrt {V/v}}\]
    • Z : 표준정규분포, V : 카이제곱분포, v : 자유도
    • 종모양의 대칭형
    • 자유도가 커질수록 표준정규분포에 가까운 형태 alt text

T-검정 종류

  • 딘일표본 T검정(one sample t-test)
  • 독립표본 T검정(Two (independent) sample t-test)
  • 대응표본 T검정(Two dependent sample t-test)

단일표본

  • 표본이 하나일 때, 모집단의 평균과 표본집단의 평균 사이에 차이가 있는지를 검증하는 방법
예제
  • 평균 알코올 섭취량 8.1g
  • 데이터 : 15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97
    • 95%기준
       x <- c(15.50, 11.21, 12.67, 8.87, 12.15, 9.88, 2.06, 14.50, 0, 4.97)
       c(mean(x), var(x))
       t = (mean(x) - 8.1)/(sqrt(var(x)/length(x)))
       -qt(0.025, 9)
       t.test(x, mu = 8.1)
       t
      

      독립표본

  • 독립적으로 존재하는 두 집단 간의 평균 차이를 검증하는 통계분석 기법
  • 가정
    • 독립성 : 독립된 2개 집단
    • 정규성 : 독립변수에 따른 종속변수는 정규분포
    • 등분산성 : 독립변수에 따른 종속변수 분포의 분산은 집단마다 동일
두 모분산의 관계
  • 등분산성
    • \(합동표본분산(가중평균) S^2_p = \frac{n_1 - 1}{(n_1-1) + (n_2-1)}S^2_1 + \frac{n_2 - 1}{(n_1-1)(n_2 - 1)}S^2_2\) \(df = n_1 + n_2 - 2\)
    • 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}} \sim t_{n_1 + n_2 - 2}\)
    • 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{n_1 + n_2 -2, \frac{\alpha}{2} \sqrt{S^2_p(\frac{1}{n_1} + \frac{1}{n_2})}}\)
  • 등분산성 아님
    • 검정통계량 \(t = \frac{(\bar {X_1} - \bar {X_2}) - (\mu_1 - \mu_2)}{\sqrt {\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}} \sim t_v\)
    • 신뢰구간 \((\bar {x_1} - \bar {x_2}) \pm t_{v, \frac{\alpha}{2}\sqrt{\frac{S^2_1}{n_1} + \frac{S^2_2}{n_2}}}\)
예제
  • 초등학교 1학년 남자와 여자의 혈압 차이
    • 남자 : 114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106
    • 여자 : 108, 98, 88, 86, 100, 98, 104, 102, 94
      • 95% 기준
         x1 <- c(114, 96, 80, 102, 94, 94, 98, 92, 94, 100, 108, 110, 90, 90, 82, 106)
         x2 <- c(108, 98, 88, 86, 100, 98, 104, 102, 94)
         mu1 = mean(x1)
         mu2 = mean(x2)
         sp2 = ((length(x1)-1) * var(x1) + ((length(x2) - 1) * var(x2)))/(length(x1) + length(x2) - 2)
         t = (mu1 - mu2)/sqrt(sp2 * (1/length(x1)+1/length(x2)))
         -qt(0.025, 23)
         t.test(x1, x2, var.equal = T)
        
예제
  • mtcars의 am과 mpg
    mtcars
    str(mtcars)
    head(mtcars) #95%기준
    #등분산성 확인
    var.test(mtcars[mtcars$am==1, 1], mtcars[mtcars$am==0, 1])
    #분산이 같을 경우
    t.test(mtcars[mtcars$am==0, 1], mtcars[mtcars$am==1, 1], var.equal = TRUE)
    #분산이 다를 경우 var.equal = FALSE 사용용
    t.test(mpg~am, data = mtcars, var.equal = FALSE)
    

대응표본

  • 두 집단은 사실, 한 집단을 어느 한 시점(기준)을 중심으로 전후를 비교하는것
  • 쌍을 이룬 두 변수 간에 차이의 평균이 ‘o’인지를 검정
  • 검정통계량 \(t_{\bar D} = \frac{\bar D - \mu_D}{\sqrt {\frac{S^2_D}{n}}} \sim t_{n-1}\)
  • 신뢰구간 \(\bar d \pm t_{n-1, \frac{\alpha}{2} \sqrt{\frac{S^2_d}{n}}}\)

예제

  • 공장지대가 미치는 가축들의 불소 농도 변화
가축 1 2 3 4 5 6 7 8 9 10 11
초기 24.7 46.1 18.5 29.5 26.3 33.9 23.1 20.7 18.0 19.3 23.0
이후 12.4 14.1 7.6 9.5 19.7 10.6 9.1 11.5 13.3 8.3 15.0
  • 95%기준
    be = c(24.7,46.1,18.5,29.5,26.3,33.9,23.1,20.7,18.0,19.3,23.0)
    af = c(12.4,14.1,7.6,9.5,19.7,10.6,9.1,11.5,13.3,8.3,15.0)
    diffz = be - af
    c(mean(diffz), var(diffz))
    tt = mean(diffz)/sqrt(var(diffz)/length(diffz))
    qt(0.025, 10, lower.tail = F)
    t.test(be, af, paired = T)
    

예제 2

  • A반의 중간, 기말 평균 비교
mid = c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
fin = c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
t.test(mid, fin, paired = TRUE)

참고

  • 모집단의 분산을 아는 경우나 또는 표본수가 많은 경우는 “중심극한정리”에 의하여 근사적으로 정규분포를 따른다고 생각할 수 있다.