데이터 유형
변수
- 변수 : 공통의 측정 방법으로 얻은 같은 성질의 값
- 각각 다른 값을 취할 수 있음(키)
- n변수 데이터 : n개의 변수가 있는 데이터
- 이 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음
- 이 때 하나의 요소에서 각 변수의 데이터를 모두 얻어야함
- 이 경우 변수 간의 관계를 밝히고자 데이터를 분석할 수 있음
- 차원 : 변수의 개수
- 고차원 데이터 : 여러 개의 변수를 포함한 데이터
다양한 데이터 유형
- 데이터를 수집, 분석할 때 변수의 유형에 주의를 기울여야함
양적 변수(수치형 변수)
- 숫자로 나타낼 수 있는 변수
이산형
- 이산형 양적 변수(이산변수) : 얻을 수 있는 값이 점점이 있는 변수
연속형
- 연속형 양적 변수(연속변수) : 간격 없이 이어지는 값으로 나타낼 수 있는 변수
질적 변수(범주형 변수)
- 숫자가 아닌 범주로 변수를 나타냄
- 대소 관계 없음
- 수치 정의 불가능
데이터 분포
그림으로 데이터 분포 표현
- 데이터를 시각화하여 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계
이산변수의 히스토그램
- 가로축 : 숫자
- 세로축 : 데이터에 나타난 개수(도수, 빈도, 횟수)
연속변수의 히스토그램
- 엄밀하게 같은 값은 존재하지 않음
- 범위를 설정, 그 범위에 포함되는 숫자 개수를 세어 이를 세로축에 둠
- 구간폭 : 그 범위의 넓이
범주형 변수의 히스토그램
- 가로축 : 각 범주
- 세로축 : 각 범주에 속하는 개수
통계량
데이터 특징 짓기
- 통계량 : 수집한 데이터로 계산을 수행하여 얻은 값
- 다양한 통계량 계산을 통해 대상을 이해하는 과정 : 데이터 분석
- 기술통계량(요약통계량) : 데이터 그 자체의 성질을 기술하고 요약하는 통계량
- 주로 양적 변수를 대상으로 계산
- 범주형 변수 : 특정 범주의 값이 몇 개인지 같은 개수(비율)로만 데이터를 기술하고 요약
통계량과 정보
- n개의 통계량으로 요약 : 데이터에 있는 정보 중 버리즞 부분이 있다
다양한 기술통계량
- 대푯값 : 평균, 중앙값, 최빈값
- 데이터 퍼짐 정도 : 분산, 표준편차
대푯값
- 대표적인 값을 정량화하기 위해 사용하는 통계량
- 평균값
-
가장 자주 쓰이고, 잘 알려진 대푯값 \(\bar x = \frac{1}{n}(x_1 + x_2 + \dots + x_n) = \frac{1}{n} \sum_{i=1}^n x_i\)
-
코드
#넘파이를 활용한 파이썬 import numpy as np np.mean(data)
#R 코드 mean(data)
--sql로 평균-- AVG(column)
-
중앙값
- 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
- n이 짝수일 땐 가운데 두값의 평균
- 순서에만 주목 -> 극단적으로 크거나 작은 값이 있어도 영향을 받지 않음
- 코드
# 넘파이를 활용해 중앙값 구하는 파이썬 코드 import numpy as np np.median(data)
#R로 중앙값 구하는 코드
median(data)
--sql로 중앙값--
MEDIAN(column)
최빈값
- 데이터 중 가장 자주 나타나는 값
- 자주 사용되진 않음
- 전체에서 어떤 값이 전형적으로 나타나는지 파악할 때 도움 됨
# 넘파이를 활용한 최빈값 구하는 파이썬 코드
import numpy as np
a = np.bincount(data)
b = a.argmax()
print(b)
# 최빈값 구하는 R 코드
y <- table(data)
names(y)[which(y==max(y))]
--최빈값 구하는 쿼리문--
STATS_MODE(data)
대푯값의 모습, 한계
- 분포가 좌우대칭 : 평균, 중앙값, 최빈값은 대체로 일치
- 좌우 비대칭 분호 : 각각 다른 값이 됨
- 데이터 분포, 최댓값, 최솟값 같은 정보는 대푯값에서 읽을 수 없음
이상값
- 극단적으로 크거나 작은 값
- 평균은 계산시 모든 값을 고려
- => 이상값의 영향을 받기 쉬움
- 중앙값은 순서에 영향을 받으므로 이상값에는 영향받지 않음
히스토그램
- 대푯값은 데이터 분포 형태에 따라 실제 데이터에서 동떨어진 값으로 나올 수 있음
- 히스토그램을 그려 데이터 분포 형태 파악이 선행되어야 함