Jayiuk Blog

자연어처리 공부 1 - 자연어처리 기초

자연어처리

비정형 데이터의 형태를 갖는 자연어를 기계(컴퓨터)가 이해할 수 있는 형태로 변환 , 이를 바탕으로 다양한 태스크를 수행하는 인공지능 한 분야

정형데이터와 비정형데이터 차이

정형데이터 : 스키마가 정의되어 있는 데이터
비정형데이터 : 스키마가 정의되어 있지 않은 데이터
자연어는 비정형데이터에 속함 -> 컴퓨터가 즉각적으로 이해하지 못함

단어 임베딩

토큰화(Tokenization)

자연어 문장을 특정 단위로 자르는 것
영어는 단어, 한국어는 형태소 단위로 자르는 것이 일반적

특징화(Featurization)

모델의 입력으로 활용되기 위한 과정
말 그대로 특징을 추출하는 과정
Bag of Words : 단어들의 목록과 등장빈도를 기준으로 특징화
단어 임베딩(Word Embedding)
- 임베딩 : 인공신경망을 통한 특징화 방법론 중 하나. 특정 특징들을 우리가 원하는 형태 또는 성질의 벡터 공간으로 투영하는 방법
- 단어 임베딩은 각각의 토큰들에 대해서 벡터화를 수행한다. 벡터는 우리가 원하는 특징들을 보유하게 됨

Word2Vec

단어 임베딩을 통한 토큰 특징화 접근의 대표적인 방법
Distributional Hypothesis라는 가정을 바탕으로 진행됨
- 유사한 의미의 단어들은 말뭉치 내의 가까운 위치상에서 등장할 확률이 높다

word2vec_example

#NLP #AI

March 21, 2024