정제 & 정규화
- 정제(cleaning) : 갖고 있는 데이터로부터 노이즈를 제거
- 토큰화 작업 이전에 시행되기도 함
- 토큰화 완료 후에도 지속적으로 이루어짐
- 완벽한 정제는 어려움 -> 합의점을 찾아야함
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만듬
규칙 기반 표기가 다른 단어 통합
- 같은 의미지만 표기가 다른 경우 존재
- 이럴 경우 하나의 단어로 합쳐야함
대, 소문자 통합
- 알파벳 기반 언어에서 대소문자 통합 시 단어의 개수를 줄일 수 있음
- 특수한 경우 아니면 대부분 소문자로 작성됨
- 보통 대문자를 소문자로 변환하는 작업
- 무작정 통합 시 부작용 발생 가능
- 사람 이름이나 약어 등은 대문자로 쓰여져 있음
- 이 경우 소문자로 변환 시 의미가 다른 단어가 될 수 있음
- 결국 데이터 바이 데이터의 문제
불필요한 단어 제거
- 정제 작업에서 노이즈 데이터
- 아무 의미도 없는 글자들(특수문자)
- 분석 목적에 맞지 않는 단어
등장 빈도가 적은 단어
- 등장 빈도가 적은 단어의 경우 자연어처리에 도움이 안됨
- 이 경우 제거해주는게 낫다
길이가 짧은 단어
- 길이가 짧은 단어 제거 시 자연어처리에 불필요한 단어 제거 가능
- 단, 기준은 분석 대상의 언어에 따라 달라짐
- 영어의 경우 2글자까지 지워도 상관없음
- 한국어의 경우 2글자 단어를 지우면 그 영향을 크게 받음
- 분석 목적, 분석 대상의 언어를 고려해 결정해야함
July 02, 2024