추론,분석2


카이제곱 검정

  • 적합도 검정
    • 표본으로 얻어진 범주의 분포들이 주어진 분포에 부합바는지 살펴봄
  • 독립성 검정
    • 범주형 변수들끼리의 독립성 살펴봄
  • 동질성 검정
    • 두 개 이상의 집단에서의 분포가 같은지 살펴봄
  • \[V = X^2_1 + \cdots + X^2_k\]
  • \[X_i : standard\ normal\ distributions\]
  • \[f(x:k) = ax^{\frac{k}{2} - 1}exp(-\frac{x}{2})\]
qchisq(.05, df = 7, lower.tail = F)
pchisq(14.0674, df = 7, lower.tail = F)

alt text

적합도 검정

  • 이미 알려준 분포 vs 표본의 분포
  • 귀무가설 : 기존의 분포를 따른다 대립가설 : 기존의 분포를 따르지 않는다
  • 두 분포의 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정

    검정을 위한 계산

  • \[\pi_i : 전체\ k개의\ 범주\ 중\ i번째\ 범주의\ 가정된\ 확률\]
  • \[E_i : 표본수\ n에\ 대해\ i번째\ 범주에\ 대한\ 개수\]
  • \(O_i : 실제\ 표본으로부터\ 얻어진\ i번째\ 범주에\ 대한\ 개수\) \(x^2 = \displaystyle\sum \Bigg(\frac{O_i - E_i}{\sqrt {E_i}}\Bigg)^2\) \(= \displaystyle\sum \frac{(O_i - E_i)^2}{E_i}\sim X^2_{k-1}\)
    • 자유도 = k - 1

      예제

  • 기업별 시장점유율에 관한 평가
기업 A B C D 합계
시장점유율 20% 40% 10% 30% 100%
실판매량 110 195 47 148 500
xx <- c(110, 195, 47, 148)
xp <- c(0.2, 0.4, 0.1, 0.3)
x <- chisq.test(xx, p = xp)
x
x$expected
x$residuals^2

예제2

  • 어느 의료영상기기 제조업체에 하루에 접수되는 AS수리 요청건수를 200일간 세어보았을 때, 건수당 관측빈도는 포아송분포에 따르는가?
AS접수건수 관측빈도
0 94
1 67
2 33
3 3
4(이상) 3
합계 200
lambdaz = (94*0 + 67*1 + 33*2 + 3*3 + 3*4) / 200
e = dpois(0:4, lambda = lambdaz) * 200
e
yy = c(94, 67, 33, 6)
yp = e[1:3]/200
yp[4] = 1-sum(yp)
y = chisq.test(yy, p = yp)
y

독립성 검정

  • 2개의 변수에 대하여 독립인지를 확인
  • 귀무가설 : 두 변수는 독립이다 대립가설 : 두 변수는 독립이 아니다
  • 표본에 따른 분포값과 독립에 의한 기댓값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정

검정을 위한 계산

  • \[\pi_{ij} : 전체\ 범주\ 중\ i번째, j번째\ 범주의\ 가정된\ 확률\]
    • \[\hat \pi_i = \frac{O_i}{n}\ 으로\ 추정\]
  • \(E_{ij} = n\hat\pi_{ij} = n\hat\pi_i\hat\pi_j\) \(X^2 = \displaystyle\sum\Bigg(\frac{O_{ij} - E_{ij}}{\sqrt E_{ij}}\Bigg)^2 = \displaystyle\sum\frac{(O_{ij} 0 E_{ij})^2}{E_{ij}}\sim X^2_{df}\) df = (I-1)(J-1)

예제

  • 대학원전공와 학부성적의 관계
  사회과학 자연과학 공학 합계
3.5-4.5 30 13 16 59
2.5-3.5 8 16 7 31
1.5-2.5 12 11 17 40
합계 50 40 40 130
y <- matrix(c(30, 13, 16, 8, 16, 7, 12, 11, 17), nrow = 3, byrow = T)
chisq.test(y, correct = F)
install.packages("gmodels")
library(gmodels)
data(diamonds, package = "ggplot2")
table(diamonds$cut, diamonds$color)
CrossTable(diamonds$cut, diamonds$color, chisq = TRUE, expected = TRUE)
chisq.test(diamonds$cut, diamonds$color)

동질성 검정

  • 두 집단의 분포가 서로 같은지 다른지를 확인
  • 귀무가설 : 두 집단 분포는 동일하다 대립가설 : 두 집단 분포는 동일하지 않다
  • 각 표본에 따른 분포값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정

예제

  • 남녀별 대학생의 전공자수 분석
    • 남학생(45) = 독문(30) + 불문(15)
    • 여학생(125) = 독문(50) + 불문(75)
yy <- matrix(c(30, 15, 50, 75), nrow = 2, byrow = T)
chisq.test(yy, correct = F)