Embedding (Embedding Vector)

  • 단어를 실수 형태의 벡터로 표현한 결과
  • BoW : 단어의 등장 횟수로 벡터화한다.
  • TF-IDF : 의미없는 단어의 특징을 없애기 위해 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 통해 의미 없단어를 제외한 단어들의 벡터를 얻을 수 있다.

Word Embedding

  • 자연어 처리에서의 단어 표현 방법
  • 기존 임베딩 기법은 단어간의 상관계나 관련성을 표현할 수 없다.
  • 정해진 차원 내에서 0, 1뿐만 아닌 실수값을 가지는 벡터로, Dense Representation(밀집표현)이다.

Word2Vec

word2vec 목적함수

  • 문장 내에 비슷한 위치의 단어는 유사성을 가진다는 가정으로 출발한다.
  • 주변에 등장하는 단어의 유사성은 높이고, 멀리 떨어진 단어들의 유사성은 낮춘다.
  • 문장을 토큰화(Tokenizing)하고, 단어 집합을 먼저 만든다.
  • CBOW : 주변 단어로 중심 단어를 예측한다.
  • Skip-Gram : 중심 단어로 주변 단어를 예측한다.

 

Glove

  • 사전에 동시 등장 횟수를 계산하며, 단어간의 내적값과 사전에 계산된 값의 차이를 줄여가는 형태로 학습한다.
  • word2vec은 window size내 주변 단어만을 확인하는 한계가 있다.
  • word2vec, count기반을 동시에 가진 방법

* 코사인 유사도

  • 두 벡터 사이의 각도가 작을 수록 내적값이 커진다 (유사도가 높다)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

validation set의 data augmentation  (0) 2024.05.04
머신러닝 VS 딥러닝  (0) 2024.04.17
Bag of Words  (0) 2024.01.07
Vanishing Gradient Problem(기울기 소실)  (0) 2023.11.28
전이학습 (Transfer Learning)  (0) 2023.10.17

+ Recent posts