문서 단어 행렬(Document-Term Matrix, DTM)
- 서로 다른 BoW를 결합한 표현 방법
- 서로 다른 문서들을 비교할 수 있게됨
표기법
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
- 각 문서들의 BoW들을 행렬로 표현한 것
문서 단어 행렬 예시
- 문서1 : 먹고 싶은 사과
- 문서2 : 먹고 싶은 바나나
- 문서3 : 길고 노란 바나나 바나나
- 문서4 : 저는 과일이 좋아요
구분 |
과일이 |
길고 |
노란 |
먹고 |
바나나 |
사과 |
싶은 |
저는 |
좋아요 |
문서1 |
0 |
0 |
0 |
1 |
0 |
1 |
1 |
0 |
0 |
문서2 |
0 |
0 |
0 |
1 |
1 |
0 |
1 |
0 |
0 |
문서3 |
0 |
1 |
1 |
0 |
2 |
0 |
0 |
0 |
0 |
문서4 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
- 문서들을 서로 비교 가능하게 수치화해줌
- 토큰화, 불용어 제거로 더 정교한 행렬 구현 가능
문서 단어 행렬의 한계
희소 표현
- 희소 행렬 : 대부분의 값이 0인 행렬
- 많은 양의 저장 공간과 높은 계산 복잡도를 요구
- 원핫벡터, 문서 단어 행렬 모두 희소 행렬
- 텍스트 전처리로 크기를 최대한 줄여야함
단순 빈도 수 기반 접근
- 원핫 벡터는 단순 빈도 수 기반 방법
- 문서 단어 행렬은 단순히 원핫 벡터를 모아 행렬로 만든 것
- 단순 빈도 수 기반 방법이라는 한계는 공통적으로 가짐
- ex) 두 문서 다 the가 많이 나왔다고 해서 두 문서가 유사하다고 볼 순 없음
July 09, 2024