다중회귀분석
-
\[직선관계를 고려하여 y = \beta_0 + \beta_1x_1 + \cdots + \beta_nx_n 형태 수식으로 모델링\]
- \[\beta_0, \beta1, \cdots , \beta_n을 찾는 것이 1차 목표로 잔차 값을 활용하여 구함\]
- 목표는 잔차의 제곱의 합을 최소화 시킴
- 최소제곱법을 사용
잔차
- 데이터 값과 추정치의 차이
- 정규분포를 따르며 분산이 일정하고 특별한 추세를 따르지 않음
수식화
- \[데이터(x_{1i}, \cdots , x_{ni}, y_i)\ for\ i = 1, \cdots , N\]
- \[추정치\ \hat y_i = \beta_0 + \beta_1x_{1i} + \cdots + \beta_nx_{ni}\ for\ i = 1, \cdots , N\]
- \[\min_{\beta_0, \cdots , \beta_n}\displaystyle\sum^N_{i = 1}(y_i - \hat y_i) ^ 2\]
가설
- 귀무가설 : 회귀식의 회귀계수는 0이다
- 대립가설 : 회귀식의 회귀계수는 0이 아니다
- 총체적 검정 & 개별 계수
수정 결정계수
- 0~1 사이의 값을 통하여 모형의설명력을 평가해주는 값
- 추정한 모형이 주어진 자료에 적합한 정도를 가지는지 재는 척도
- 독립변수가 많을수록 값이 커지는 경향, 변수의 계수에 따라 변화되는 수정된 결정계수도 있음
- \[R^2_a = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)}\]
예제 1
str(attitude)
pairs(attitude)
out = lm(rating ~ complaints + learning, data = attitude)
out
summary(out)
다중공선성
- 회귀분석의 전제를 위배하는 사항
- 독립변수들 간에 강한 상관관계가 나타나는 문제
- 10이하의 값
- 독립변수들 간에 강한 상관관계가 나타나는 문제
회귀모형 선택
- 확인적 요인 분석
- 이론에 근거를 둔 경우
- 탐색적 요인 분석
- 데이터에 기반하여 여러 모델을 고려한 이후에 적절한 모형 선택
- 종속변수와의 높은 상관관계
- 독립변수 간의 낮은 상관관계
- 소수정예
- 데이터에 기반하여 여러 모델을 고려한 이후에 적절한 모형 선택
모형 선택 for 탐색적 요인 분석
- All possible regressions
- 가능한 모든 독립변수들의 조합들로 모형을 만든 후 비교
- Forward selection
- 가장 유의한 독립변수부터 덜 유의한 순으로 추가
- Backward elimination
- 모든 변수를 넣은 후 가장 기여도가 낮은 변수부터 제거
- Stepwise selection
- Forward selection + backward elimination
예제 2
out = lm(rating ~ ., data = attitude)
backs = step(out, direction = "backward", trace = T)
backs$anova
out = lm(rating ~ 1, data = attitude)
fors = step(out, direction = "forward", trace = T, scope = ~ complaints + privileges + learning + raises + critical + advance)
fors$anova