문제 1
-
패키지(ggplot2)에 있는 diamonds 라는 데이터를 활용한다.
-
집단A: cut값이 ideal, 집단B: cut값이 good 이다.
-
두 집단의 price값 분석을 위해 알맞은 t검정을 시행하고 그 결과를 적어라.
풀이 1
library(ggplot2)
A = diamonds[diamonds$cut == 'Ideal', ]
B = diamonds[diamonds$cut == 'Good', ]
var.test(A$price, B$price) #등분산성 검정
코드 실행 결과
F test to compare two variances
data: A$price and B$price F = 1.0701, num df = 21550, denom df = 4905, p-value = 0.002691 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 1.023849 1.117705 sample estimates: ratio of variances 1.070076
해석
p-value와 유의수준을 비교 시 유의수준에 비해 p-value가 작음. -> 귀무가설을 기각하고 대립가설을 채택 => 등분산성이 아니다.
t.test(A$price, B$price, var.equal = F) #등분산성이 아니므로 F를 줌
코드 실행 결과
Welch Two Sample t-test
data: A$price and B$price t = -8.0409, df = 7484.7, p-value = 1.029e-15 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -586.2251 -356.4198 sample estimates: mean of x mean of y 3457.542 3928.864
해석
p-value의 값이 유의수준보다 작다 -> 귀무가설을 기각하고 대립가설을 채택 => cut에 따라 차이가 있다
문제 2
새로운 학습법 개발에 따른 차이
표본 | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
전 | 15 | 30 | 25 | 10 | 40 | 18 | 15 | 30 | 15 | 10 | 25 | 30 | 35 | 40 | 45 | 50 |
후 | 20 | 10 | 20 | 00 | 20 | 10 | 00 | 20 | 10 | 15 | 25 | 15 | 10 | 30 | 30 | 38 |
풀이2
data_be = c(15, 30, 25, 10, 40, 18, 15, 30, 15,10,25, 30,35,40,45,50)
data_af = c(20, 10, 20, 00, 20, 10, 00, 20, 10, 15, 25, 15, 10, 30, 30, 38)
t.test(data_be, data_af, paired = T)
코드 실행 결과
Paired t-test
data: data_be and data_af t = 4.6541, df = 15, p-value = 0.0003117 alternative hypothesis: true mean difference is not equal to 0 95 percent confidence interval: 5.420276 14.579724 sample estimates: mean difference 10
해석
p-value가 유의수준보다 작다. -> 귀무가설 기각, 대립가설 채택 => 새로운 학습법은 차이가 있다.