Word Embedding — 하루한장

728x90

Embedding (Embedding Vector)

단어를 실수 형태의 벡터로 표현한 결과
BoW : 단어의 등장 횟수로 벡터화한다.
TF-IDF : 의미없는 단어의 특징을 없애기 위해 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 통해 의미 없단어를 제외한 단어들의 벡터를 얻을 수 있다.

Word Embedding

자연어 처리에서의 단어 표현 방법
기존 임베딩 기법은 단어간의 상관계나 관련성을 표현할 수 없다.
정해진 차원 내에서 0, 1뿐만 아닌 실수값을 가지는 벡터로, Dense Representation(밀집표현)이다.

Word2Vec

word2vec 목적함수

문장 내에 비슷한 위치의 단어는 유사성을 가진다는 가정으로 출발한다.
주변에 등장하는 단어의 유사성은 높이고, 멀리 떨어진 단어들의 유사성은 낮춘다.
문장을 토큰화(Tokenizing)하고, 단어 집합을 먼저 만든다.
CBOW : 주변 단어로 중심 단어를 예측한다.
Skip-Gram : 중심 단어로 주변 단어를 예측한다.

Glove

사전에 동시 등장 횟수를 계산하며, 단어간의 내적값과 사전에 계산된 값의 차이를 줄여가는 형태로 학습한다.
word2vec은 window size내 주변 단어만을 확인하는 한계가 있다.
word2vec, count기반을 동시에 가진 방법

* 코사인 유사도

두 벡터 사이의 각도가 작을 수록 내적값이 커진다 (유사도가 높다)

저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

validation set의 data augmentation (0)	2024.05.04
머신러닝 VS 딥러닝 (1)	2024.04.17
Bag of Words (0)	2024.01.07
Vanishing Gradient Problem(기울기 소실) (0)	2023.11.28
전이학습 (Transfer Learning) (0)	2023.10.17

티스토리툴바