카이제곱 검정
- 적합도 검정
- 표본으로 얻어진 범주의 분포들이 주어진 분포에 부합바는지 살펴봄
- 독립성 검정
- 범주형 변수들끼리의 독립성 살펴봄
- 동질성 검정
- 두 개 이상의 집단에서의 분포가 같은지 살펴봄
- \[V = X^2_1 + \cdots + X^2_k\]
- \[X_i : standard\ normal\ distributions\]
- \[f(x:k) = ax^{\frac{k}{2} - 1}exp(-\frac{x}{2})\]
qchisq(.05, df = 7, lower.tail = F)
pchisq(14.0674, df = 7, lower.tail = F)
적합도 검정
- 이미 알려준 분포 vs 표본의 분포
- 귀무가설 : 기존의 분포를 따른다 대립가설 : 기존의 분포를 따르지 않는다
- 두 분포의 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정
검정을 위한 계산
- \[\pi_i : 전체\ k개의\ 범주\ 중\ i번째\ 범주의\ 가정된\ 확률\]
- \[E_i : 표본수\ n에\ 대해\ i번째\ 범주에\ 대한\ 개수\]
- \(O_i : 실제\ 표본으로부터\ 얻어진\ i번째\ 범주에\ 대한\ 개수\)
\(x^2 = \displaystyle\sum \Bigg(\frac{O_i - E_i}{\sqrt {E_i}}\Bigg)^2\)
\(= \displaystyle\sum \frac{(O_i - E_i)^2}{E_i}\sim X^2_{k-1}\)
- 자유도 = k - 1
예제
- 자유도 = k - 1
- 기업별 시장점유율에 관한 평가
기업 | A | B | C | D | 합계 |
---|---|---|---|---|---|
시장점유율 | 20% | 40% | 10% | 30% | 100% |
실판매량 | 110 | 195 | 47 | 148 | 500 |
xx <- c(110, 195, 47, 148)
xp <- c(0.2, 0.4, 0.1, 0.3)
x <- chisq.test(xx, p = xp)
x
x$expected
x$residuals^2
예제2
- 어느 의료영상기기 제조업체에 하루에 접수되는 AS수리 요청건수를 200일간 세어보았을 때, 건수당 관측빈도는 포아송분포에 따르는가?
AS접수건수 | 관측빈도 |
---|---|
0 | 94 |
1 | 67 |
2 | 33 |
3 | 3 |
4(이상) | 3 |
합계 | 200 |
lambdaz = (94*0 + 67*1 + 33*2 + 3*3 + 3*4) / 200
e = dpois(0:4, lambda = lambdaz) * 200
e
yy = c(94, 67, 33, 6)
yp = e[1:3]/200
yp[4] = 1-sum(yp)
y = chisq.test(yy, p = yp)
y
독립성 검정
- 2개의 변수에 대하여 독립인지를 확인
- 귀무가설 : 두 변수는 독립이다 대립가설 : 두 변수는 독립이 아니다
- 표본에 따른 분포값과 독립에 의한 기댓값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정
검정을 위한 계산
-
\[\pi_{ij} : 전체\ 범주\ 중\ i번째, j번째\ 범주의\ 가정된\ 확률\]
- \[\hat \pi_i = \frac{O_i}{n}\ 으로\ 추정\]
- \(E_{ij} = n\hat\pi_{ij} = n\hat\pi_i\hat\pi_j\) \(X^2 = \displaystyle\sum\Bigg(\frac{O_{ij} - E_{ij}}{\sqrt E_{ij}}\Bigg)^2 = \displaystyle\sum\frac{(O_{ij} 0 E_{ij})^2}{E_{ij}}\sim X^2_{df}\) df = (I-1)(J-1)
예제
- 대학원전공와 학부성적의 관계
사회과학 | 자연과학 | 공학 | 합계 | |
---|---|---|---|---|
3.5-4.5 | 30 | 13 | 16 | 59 |
2.5-3.5 | 8 | 16 | 7 | 31 |
1.5-2.5 | 12 | 11 | 17 | 40 |
합계 | 50 | 40 | 40 | 130 |
y <- matrix(c(30, 13, 16, 8, 16, 7, 12, 11, 17), nrow = 3, byrow = T)
chisq.test(y, correct = F)
install.packages("gmodels")
library(gmodels)
data(diamonds, package = "ggplot2")
table(diamonds$cut, diamonds$color)
CrossTable(diamonds$cut, diamonds$color, chisq = TRUE, expected = TRUE)
chisq.test(diamonds$cut, diamonds$color)
동질성 검정
- 두 집단의 분포가 서로 같은지 다른지를 확인
- 귀무가설 : 두 집단 분포는 동일하다 대립가설 : 두 집단 분포는 동일하지 않다
- 각 표본에 따른 분포값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정
예제
- 남녀별 대학생의 전공자수 분석
- 남학생(45) = 독문(30) + 불문(15)
- 여학생(125) = 독문(50) + 불문(75)
yy <- matrix(c(30, 15, 50, 75), nrow = 2, byrow = T)
chisq.test(yy, correct = F)