데이터 유형

변수

변수 : 공통의 측정 방법으로 얻은 같은 성질의 값
- 각각 다른 값을 취할 수 있음(키)
- n변수 데이터 : n개의 변수가 있는 데이터
  - 이 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음
    - 이 때 하나의 요소에서 각 변수의 데이터를 모두 얻어야함
차원 : 변수의 개수
고차원 데이터 : 여러 개의 변수를 포함한 데이터

다양한 데이터 유형

데이터를 수집, 분석할 때 변수의 유형에 주의를 기울여야함

양적 변수(수치형 변수)

숫자로 나타낼 수 있는 변수

이산형

이산형 양적 변수(이산변수) : 얻을 수 있는 값이 점점이 있는 변수

연속형

연속형 양적 변수(연속변수) : 간격 없이 이어지는 값으로 나타낼 수 있는 변수

질적 변수(범주형 변수)

숫자가 아닌 범주로 변수를 나타냄
- 대소 관계 없음
- 수치 정의 불가능

데이터 분포

그림으로 데이터 분포 표현

데이터를 시각화하여 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계

이산변수의 히스토그램

가로축 : 숫자
세로축 : 데이터에 나타난 개수(도수, 빈도, 횟수)

연속변수의 히스토그램

엄밀하게 같은 값은 존재하지 않음
- 범위를 설정, 그 범위에 포함되는 숫자 개수를 세어 이를 세로축에 둠
- 구간폭 : 그 범위의 넓이

범주형 변수의 히스토그램

가로축 : 각 범주
세로축 : 각 범주에 속하는 개수

통계량

데이터 특징 짓기

통계량 : 수집한 데이터로 계산을 수행하여 얻은 값
- 다양한 통계량 계산을 통해 대상을 이해하는 과정 : 데이터 분석
기술통계량(요약통계량) : 데이터 그 자체의 성질을 기술하고 요약하는 통계량
- 주로 양적 변수를 대상으로 계산
- 범주형 변수 : 특정 범주의 값이 몇 개인지 같은 개수(비율)로만 데이터를 기술하고 요약

통계량과 정보

n개의 통계량으로 요약 : 데이터에 있는 정보 중 버리즞 부분이 있다

다양한 기술통계량

대푯값 : 평균, 중앙값, 최빈값
데이터 퍼짐 정도 : 분산, 표준편차

대푯값

대표적인 값을 정량화하기 위해 사용하는 통계량
평균값
- 가장 자주 쓰이고, 잘 알려진 대푯값 \(\bar x = \frac{1}{n}(x_1 + x_2 + \dots + x_n) = \frac{1}{n} \sum_{i=1}^n x_i\)
- 코드
```
#넘파이를 활용한 파이썬
import numpy as np
np.mean(data)
```
```
#R 코드
mean(data)
```
```
--sql로 평균--
AVG(column)
```

중앙값

크기 순으로 값을 정렬했을 때 한가운데 위치한 값
- n이 짝수일 땐 가운데 두값의 평균
순서에만 주목 -> 극단적으로 크거나 작은 값이 있어도 영향을 받지 않음

코드

# 넘파이를 활용해 중앙값 구하는 파이썬 코드
import numpy as np
np.median(data)

#R로 중앙값 구하는 코드
median(data)

--sql로 중앙값--
MEDIAN(column)

최빈값

데이터 중 가장 자주 나타나는 값
자주 사용되진 않음
전체에서 어떤 값이 전형적으로 나타나는지 파악할 때 도움 됨

# 넘파이를 활용한 최빈값 구하는 파이썬 코드
import numpy as np
a = np.bincount(data)
b = a.argmax()
print(b)

# 최빈값 구하는 R 코드
y <- table(data)
names(y)[which(y==max(y))]

--최빈값 구하는 쿼리문--
STATS_MODE(data)

대푯값의 모습, 한계

분포가 좌우대칭 : 평균, 중앙값, 최빈값은 대체로 일치
좌우 비대칭 분호 : 각각 다른 값이 됨
데이터 분포, 최댓값, 최솟값 같은 정보는 대푯값에서 읽을 수 없음

이상값

극단적으로 크거나 작은 값
평균은 계산시 모든 값을 고려
- => 이상값의 영향을 받기 쉬움
- 중앙값은 순서에 영향을 받으므로 이상값에는 영향받지 않음

히스토그램

대푯값은 데이터 분포 형태에 따라 실제 데이터에서 동떨어진 값으로 나올 수 있음
- 히스토그램을 그려 데이터 분포 형태 파악이 선행되어야 함

Jayiuk Blog

통계분석의 기초

데이터 유형

변수

다양한 데이터 유형

양적 변수(수치형 변수)

이산형

연속형

질적 변수(범주형 변수)

데이터 분포

그림으로 데이터 분포 표현

이산변수의 히스토그램

연속변수의 히스토그램

범주형 변수의 히스토그램

통계량

데이터 특징 짓기

통계량과 정보

다양한 기술통계량

대푯값

중앙값

최빈값

대푯값의 모습, 한계

이상값

히스토그램

분산과 표준편차