카이제곱 검정

적합도 검정
- 표본으로 얻어진 범주의 분포들이 주어진 분포에 부합바는지 살펴봄
독립성 검정
- 범주형 변수들끼리의 독립성 살펴봄
동질성 검정
- 두 개 이상의 집단에서의 분포가 같은지 살펴봄
\[V = X^2_1 + \cdots + X^2_k\]
\[X_i : standard\ normal\ distributions\]
\[f(x:k) = ax^{\frac{k}{2} - 1}exp(-\frac{x}{2})\]

qchisq(.05, df = 7, lower.tail = F)
pchisq(14.0674, df = 7, lower.tail = F)

적합도 검정

이미 알려준 분포 vs 표본의 분포
귀무가설 : 기존의 분포를 따른다 대립가설 : 기존의 분포를 따르지 않는다
두 분포의 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정
검정을 위한 계산
\[\pi_i : 전체\ k개의\ 범주\ 중\ i번째\ 범주의\ 가정된\ 확률\]
\[E_i : 표본수\ n에\ 대해\ i번째\ 범주에\ 대한\ 개수\]
\(O_i : 실제\ 표본으로부터\ 얻어진\ i번째\ 범주에\ 대한\ 개수\) \(x^2 = \displaystyle\sum \Bigg(\frac{O_i - E_i}{\sqrt {E_i}}\Bigg)^2\) \(= \displaystyle\sum \frac{(O_i - E_i)^2}{E_i}\sim X^2_{k-1}\)
- 자유도 = k - 1
  예제
기업별 시장점유율에 관한 평가

기업	A	B	C	D	합계
시장점유율	20%	40%	10%	30%	100%
실판매량	110	195	47	148	500

xx <- c(110, 195, 47, 148)
xp <- c(0.2, 0.4, 0.1, 0.3)
x <- chisq.test(xx, p = xp)
x
x$expected
x$residuals^2

예제2

어느 의료영상기기 제조업체에 하루에 접수되는 AS수리 요청건수를 200일간 세어보았을 때, 건수당 관측빈도는 포아송분포에 따르는가?

AS접수건수	관측빈도
0	94
1	67
2	33
3	3
4(이상)	3
합계	200

lambdaz = (94*0 + 67*1 + 33*2 + 3*3 + 3*4) / 200
e = dpois(0:4, lambda = lambdaz) * 200
e
yy = c(94, 67, 33, 6)
yp = e[1:3]/200
yp[4] = 1-sum(yp)
y = chisq.test(yy, p = yp)
y

독립성 검정

2개의 변수에 대하여 독립인지를 확인
귀무가설 : 두 변수는 독립이다 대립가설 : 두 변수는 독립이 아니다
표본에 따른 분포값과 독립에 의한 기댓값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정

검정을 위한 계산

\[\pi_{ij} : 전체\ 범주\ 중\ i번째, j번째\ 범주의\ 가정된\ 확률\]
- \[\hat \pi_i = \frac{O_i}{n}\ 으로\ 추정\]
\(E_{ij} = n\hat\pi_{ij} = n\hat\pi_i\hat\pi_j\) \(X^2 = \displaystyle\sum\Bigg(\frac{O_{ij} - E_{ij}}{\sqrt E_{ij}}\Bigg)^2 = \displaystyle\sum\frac{(O_{ij} 0 E_{ij})^2}{E_{ij}}\sim X^2_{df}\) df = (I-1)(J-1)

예제

대학원전공와 학부성적의 관계

	사회과학	자연과학	공학	합계
3.5-4.5	30	13	16	59
2.5-3.5	8	16	7	31
1.5-2.5	12	11	17	40
합계	50	40	40	130

y <- matrix(c(30, 13, 16, 8, 16, 7, 12, 11, 17), nrow = 3, byrow = T)
chisq.test(y, correct = F)

install.packages("gmodels")
library(gmodels)
data(diamonds, package = "ggplot2")
table(diamonds$cut, diamonds$color)
CrossTable(diamonds$cut, diamonds$color, chisq = TRUE, expected = TRUE)
chisq.test(diamonds$cut, diamonds$color)

동질성 검정

두 집단의 분포가 서로 같은지 다른지를 확인
귀무가설 : 두 집단 분포는 동일하다 대립가설 : 두 집단 분포는 동일하지 않다
각 표본에 따른 분포값에 대하여 상대적 차이의 합을 카이스퀘어 분포와 비교하여 검정

예제

남녀별 대학생의 전공자수 분석
- 남학생(45) = 독문(30) + 불문(15)
- 여학생(125) = 독문(50) + 불문(75)

yy <- matrix(c(30, 15, 50, 75), nrow = 2, byrow = T)
chisq.test(yy, correct = F)

Jayiuk Blog

추론,분석2

카이제곱 검정

적합도 검정

검정을 위한 계산

예제

예제2

독립성 검정

검정을 위한 계산

예제

동질성 검정

예제