문서 단어 행렬


문서 단어 행렬(Document-Term Matrix, DTM)

  • 서로 다른 BoW를 결합한 표현 방법
  • 서로 다른 문서들을 비교할 수 있게됨

표기법

  • 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
  • 각 문서들의 BoW들을 행렬로 표현한 것

    문서 단어 행렬 예시

  • 문서1 : 먹고 싶은 사과
  • 문서2 : 먹고 싶은 바나나
  • 문서3 : 길고 노란 바나나 바나나
  • 문서4 : 저는 과일이 좋아요
구분 과일이 길고 노란 먹고 바나나 사과 싶은 저는 좋아요
문서1 0 0 0 1 0 1 1 0 0
문서2 0 0 0 1 1 0 1 0 0
문서3 0 1 1 0 2 0 0 0 0
문서4 1 0 0 0 0 0 0 1 1
  • 문서들을 서로 비교 가능하게 수치화해줌
  • 토큰화, 불용어 제거로 더 정교한 행렬 구현 가능

문서 단어 행렬의 한계

희소 표현

  • 희소 행렬 : 대부분의 값이 0인 행렬
  • 많은 양의 저장 공간과 높은 계산 복잡도를 요구
  • 원핫벡터, 문서 단어 행렬 모두 희소 행렬
    • 일치하는 부분만 값을 가지기 때문
  • 텍스트 전처리로 크기를 최대한 줄여야함

단순 빈도 수 기반 접근

  • 원핫 벡터는 단순 빈도 수 기반 방법
  • 문서 단어 행렬은 단순히 원핫 벡터를 모아 행렬로 만든 것
  • 단순 빈도 수 기반 방법이라는 한계는 공통적으로 가짐
    • ex) 두 문서 다 the가 많이 나왔다고 해서 두 문서가 유사하다고 볼 순 없음