Jayiuk Blog

문서 단어 행렬

문서 단어 행렬(Document-Term Matrix, DTM)

서로 다른 BoW를 결합한 표현 방법
서로 다른 문서들을 비교할 수 있게됨

표기법

다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
각 문서들의 BoW들을 행렬로 표현한 것
문서 단어 행렬 예시
문서1 : 먹고 싶은 사과
문서2 : 먹고 싶은 바나나
문서3 : 길고 노란 바나나 바나나
문서4 : 저는 과일이 좋아요

구분	과일이	길고	노란	먹고	바나나	사과	싶은	저는	좋아요
문서1	0	0	0	1	0	1	1	0	0
문서2	0	0	0	1	1	0	1	0	0
문서3	0	1	1	0	2	0	0	0	0
문서4	1	0	0	0	0	0	0	1	1

문서들을 서로 비교 가능하게 수치화해줌
토큰화, 불용어 제거로 더 정교한 행렬 구현 가능

문서 단어 행렬의 한계

희소 표현

희소 행렬 : 대부분의 값이 0인 행렬
많은 양의 저장 공간과 높은 계산 복잡도를 요구
원핫벡터, 문서 단어 행렬 모두 희소 행렬
- 일치하는 부분만 값을 가지기 때문
텍스트 전처리로 크기를 최대한 줄여야함

단순 빈도 수 기반 접근

원핫 벡터는 단순 빈도 수 기반 방법
문서 단어 행렬은 단순히 원핫 벡터를 모아 행렬로 만든 것
단순 빈도 수 기반 방법이라는 한계는 공통적으로 가짐
- ex) 두 문서 다 the가 많이 나왔다고 해서 두 문서가 유사하다고 볼 순 없음

#NLP #AI

July 09, 2024