다중회귀분석


다중회귀분석

  • \[직선관계를 고려하여 y = \beta_0 + \beta_1x_1 + \cdots + \beta_nx_n 형태 수식으로 모델링\]
    • \[\beta_0, \beta1, \cdots , \beta_n을 찾는 것이 1차 목표로 잔차 값을 활용하여 구함\]
    • 목표는 잔차의 제곱의 합을 최소화 시킴
    • 최소제곱법을 사용

잔차

  • 데이터 값과 추정치의 차이
  • 정규분포를 따르며 분산이 일정하고 특별한 추세를 따르지 않음

수식화

  • \[데이터(x_{1i}, \cdots , x_{ni}, y_i)\ for\ i = 1, \cdots , N\]
  • \[추정치\ \hat y_i = \beta_0 + \beta_1x_{1i} + \cdots + \beta_nx_{ni}\ for\ i = 1, \cdots , N\]
  • \[\min_{\beta_0, \cdots , \beta_n}\displaystyle\sum^N_{i = 1}(y_i - \hat y_i) ^ 2\]

가설

  • 귀무가설 : 회귀식의 회귀계수는 0이다
  • 대립가설 : 회귀식의 회귀계수는 0이 아니다
    • 총체적 검정 & 개별 계수

수정 결정계수

  • 0~1 사이의 값을 통하여 모형의설명력을 평가해주는 값
  • 추정한 모형이 주어진 자료에 적합한 정도를 가지는지 재는 척도
  • 독립변수가 많을수록 값이 커지는 경향, 변수의 계수에 따라 변화되는 수정된 결정계수도 있음
    • \[R^2_a = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)}\]

예제 1

str(attitude)
pairs(attitude)
out = lm(rating ~ complaints + learning, data = attitude)
out
summary(out)

다중공선성

  • 회귀분석의 전제를 위배하는 사항
    • 독립변수들 간에 강한 상관관계가 나타나는 문제
      • 10이하의 값

회귀모형 선택

  • 확인적 요인 분석
    • 이론에 근거를 둔 경우
  • 탐색적 요인 분석
    • 데이터에 기반하여 여러 모델을 고려한 이후에 적절한 모형 선택
      • 종속변수와의 높은 상관관계
      • 독립변수 간의 낮은 상관관계
      • 소수정예

모형 선택 for 탐색적 요인 분석

  • All possible regressions
    • 가능한 모든 독립변수들의 조합들로 모형을 만든 후 비교
  • Forward selection
    • 가장 유의한 독립변수부터 덜 유의한 순으로 추가
  • Backward elimination
    • 모든 변수를 넣은 후 가장 기여도가 낮은 변수부터 제거
  • Stepwise selection
    • Forward selection + backward elimination

예제 2

out = lm(rating ~ ., data = attitude)
backs = step(out, direction = "backward", trace = T)
backs$anova

out = lm(rating ~ 1, data = attitude)
fors = step(out, direction = "forward", trace = T, scope = ~ complaints + privileges + learning + raises + critical + advance)
fors$anova