정제, 정규화


정제 & 정규화

  • 정제(cleaning) : 갖고 있는 데이터로부터 노이즈를 제거
    • 토큰화 작업 이전에 시행되기도 함
    • 토큰화 완료 후에도 지속적으로 이루어짐
    • 완벽한 정제는 어려움 -> 합의점을 찾아야함
  • 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만듬

규칙 기반 표기가 다른 단어 통합

  • 같은 의미지만 표기가 다른 경우 존재
  • 이럴 경우 하나의 단어로 합쳐야함

대, 소문자 통합

  • 알파벳 기반 언어에서 대소문자 통합 시 단어의 개수를 줄일 수 있음
  • 특수한 경우 아니면 대부분 소문자로 작성됨
  • 보통 대문자를 소문자로 변환하는 작업
  • 무작정 통합 시 부작용 발생 가능
    • 사람 이름이나 약어 등은 대문자로 쓰여져 있음
    • 이 경우 소문자로 변환 시 의미가 다른 단어가 될 수 있음
  • 결국 데이터 바이 데이터의 문제

불필요한 단어 제거

  • 정제 작업에서 노이즈 데이터
    • 아무 의미도 없는 글자들(특수문자)
    • 분석 목적에 맞지 않는 단어

등장 빈도가 적은 단어

  • 등장 빈도가 적은 단어의 경우 자연어처리에 도움이 안됨
  • 이 경우 제거해주는게 낫다

길이가 짧은 단어

  • 길이가 짧은 단어 제거 시 자연어처리에 불필요한 단어 제거 가능
  • 단, 기준은 분석 대상의 언어에 따라 달라짐
    • 영어의 경우 2글자까지 지워도 상관없음
    • 한국어의 경우 2글자 단어를 지우면 그 영향을 크게 받음
  • 분석 목적, 분석 대상의 언어를 고려해 결정해야함