어간 추출 & 표제어 추출

표제어 추출(lemmatization)

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
out = [lemmatizer.lemmatize(word) for word in words]

어간(stem)을 추출하는 작업
어간 추출 후 나오는 단어는 사전에 존재하지 않는 단어일 수 있음
- 이 작업은 어미를 어림짐작해 자르는 과정일 수 있기 때문
어간추출은 표제어추출보다 일반적으로 빠름
이미 알려진 알고리즘(Poreter, Lancaster)을 사용하는 경우 코퍼스에 대해 어떤 것이 의도와 잘 맞는지 확인해야함
- 이런 이미 알려진 규칙 기반 알고리즘은 결과가 제대로 안나올 수 있음

활용 : 어간이 어미를 가지는 일
- 어간 : 원칙적으로 형태가 변하지 않음. 때로는 모양이 바뀌는 경우도 있음
- 어미 : 어간 뒤에 붙어서 활용됨. 형태가 변함. 문법적 기능 수행
규칙 활용 : 어간 + 어미에서 어간의 모습이 일정
- 어미를 단순히 분리해주면 스테밍이 됨
불규칙 활용 : 어간 + 어미에서 어간의 형태가 변함 or 어미가 특수한 어미인 경우
- 특수한 알고리즘이 필요