자연어처리 공부 1 - 자연어처리 기초


자연어처리

  • 비정형 데이터의 형태를 갖는 자연어를 기계(컴퓨터)가 이해할 수 있는 형태로 변환 , 이를 바탕으로 다양한 태스크를 수행하는 인공지능 한 분야

정형데이터와 비정형데이터 차이

  • 정형데이터 : 스키마가 정의되어 있는 데이터
  • 비정형데이터 : 스키마가 정의되어 있지 않은 데이터
  • 자연어는 비정형데이터에 속함 -> 컴퓨터가 즉각적으로 이해하지 못함

단어 임베딩

토큰화(Tokenization)

  • 자연어 문장을 특정 단위로 자르는 것
  • 영어는 단어, 한국어는 형태소 단위로 자르는 것이 일반적

특징화(Featurization)

  • 모델의 입력으로 활용되기 위한 과정
  • 말 그대로 특징을 추출하는 과정
  • Bag of Words : 단어들의 목록과 등장빈도를 기준으로 특징화
  • 단어 임베딩(Word Embedding)
    • 임베딩 : 인공신경망을 통한 특징화 방법론 중 하나. 특정 특징들을 우리가 원하는 형태 또는 성질의 벡터 공간으로 투영하는 방법
    • 단어 임베딩은 각각의 토큰들에 대해서 벡터화를 수행한다. 벡터는 우리가 원하는 특징들을 보유하게 됨

Word2Vec

  • 단어 임베딩을 통한 토큰 특징화 접근의 대표적인 방법
  • Distributional Hypothesis라는 가정을 바탕으로 진행됨
    • 유사한 의미의 단어들은 말뭉치 내의 가까운 위치상에서 등장할 확률이 높다

word2vec_example