통계분석의 기초


데이터 유형

변수

  • 변수 : 공통의 측정 방법으로 얻은 같은 성질의 값
    • 각각 다른 값을 취할 수 있음(키)
    • n변수 데이터 : n개의 변수가 있는 데이터
      • 이 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음
        • 이 때 하나의 요소에서 각 변수의 데이터를 모두 얻어야함
  • 차원 : 변수의 개수
  • 고차원 데이터 : 여러 개의 변수를 포함한 데이터

다양한 데이터 유형

  • 데이터를 수집, 분석할 때 변수의 유형에 주의를 기울여야함

양적 변수(수치형 변수)

  • 숫자로 나타낼 수 있는 변수

이산형

  • 이산형 양적 변수(이산변수) : 얻을 수 있는 값이 점점이 있는 변수

연속형

  • 연속형 양적 변수(연속변수) : 간격 없이 이어지는 값으로 나타낼 수 있는 변수

질적 변수(범주형 변수)

  • 숫자가 아닌 범주로 변수를 나타냄
    • 대소 관계 없음
    • 수치 정의 불가능

데이터 분포

그림으로 데이터 분포 표현

  • 데이터를 시각화하여 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계

이산변수의 히스토그램

  • 가로축 : 숫자
  • 세로축 : 데이터에 나타난 개수(도수, 빈도, 횟수)

연속변수의 히스토그램

  • 엄밀하게 같은 값은 존재하지 않음
    • 범위를 설정, 그 범위에 포함되는 숫자 개수를 세어 이를 세로축에 둠
    • 구간폭 : 그 범위의 넓이

범주형 변수의 히스토그램

  • 가로축 : 각 범주
  • 세로축 : 각 범주에 속하는 개수

통계량

데이터 특징 짓기

  • 통계량 : 수집한 데이터로 계산을 수행하여 얻은 값
    • 다양한 통계량 계산을 통해 대상을 이해하는 과정 : 데이터 분석
  • 기술통계량(요약통계량) : 데이터 그 자체의 성질을 기술하고 요약하는 통계량
    • 주로 양적 변수를 대상으로 계산
    • 범주형 변수 : 특정 범주의 값이 몇 개인지 같은 개수(비율)로만 데이터를 기술하고 요약

통계량과 정보

  • n개의 통계량으로 요약 : 데이터에 있는 정보 중 버리즞 부분이 있다

다양한 기술통계량

  • 대푯값 : 평균, 중앙값, 최빈값
  • 데이터 퍼짐 정도 : 분산, 표준편차

대푯값

  • 대표적인 값을 정량화하기 위해 사용하는 통계량
  • 평균값
    • 가장 자주 쓰이고, 잘 알려진 대푯값 \(\bar x = \frac{1}{n}(x_1 + x_2 + \dots + x_n) = \frac{1}{n} \sum_{i=1}^n x_i\)

    • 코드

      #넘파이를 활용한 파이썬
      import numpy as np
      np.mean(data)
      
    #R 코드
    mean(data)
    
    --sql로 평균--
    AVG(column)
    

중앙값

  • 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
    • n이 짝수일 땐 가운데 두값의 평균
  • 순서에만 주목 -> 극단적으로 크거나 작은 값이 있어도 영향을 받지 않음
  • 코드
    # 넘파이를 활용해 중앙값 구하는 파이썬 코드
    import numpy as np
    np.median(data)
    
#R로 중앙값 구하는 코드
median(data)
--sql로 중앙값--
MEDIAN(column)

최빈값

  • 데이터 중 가장 자주 나타나는 값
  • 자주 사용되진 않음
  • 전체에서 어떤 값이 전형적으로 나타나는지 파악할 때 도움 됨
# 넘파이를 활용한 최빈값 구하는 파이썬 코드
import numpy as np
a = np.bincount(data)
b = a.argmax()
print(b)
# 최빈값 구하는 R 코드
y <- table(data)
names(y)[which(y==max(y))]
--최빈값 구하는 쿼리문--
STATS_MODE(data)

대푯값의 모습, 한계

  • 분포가 좌우대칭 : 평균, 중앙값, 최빈값은 대체로 일치
  • 좌우 비대칭 분호 : 각각 다른 값이 됨
  • 데이터 분포, 최댓값, 최솟값 같은 정보는 대푯값에서 읽을 수 없음

이상값

  • 극단적으로 크거나 작은 값
  • 평균은 계산시 모든 값을 고려
    • => 이상값의 영향을 받기 쉬움
    • 중앙값은 순서에 영향을 받으므로 이상값에는 영향받지 않음

히스토그램

  • 대푯값은 데이터 분포 형태에 따라 실제 데이터에서 동떨어진 값으로 나올 수 있음
    • 히스토그램을 그려 데이터 분포 형태 파악이 선행되어야 함

분산과 표준편차