Embedding (Embedding Vector)
- 단어를 실수 형태의 벡터로 표현한 결과
- BoW : 단어의 등장 횟수로 벡터화한다.
- TF-IDF : 의미없는 단어의 특징을 없애기 위해 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 통해 의미 없단어를 제외한 단어들의 벡터를 얻을 수 있다.
Word Embedding
- 자연어 처리에서의 단어 표현 방법
- 기존 임베딩 기법은 단어간의 상관계나 관련성을 표현할 수 없다.
- 정해진 차원 내에서 0, 1뿐만 아닌 실수값을 가지는 벡터로, Dense Representation(밀집표현)이다.
Word2Vec
- 문장 내에 비슷한 위치의 단어는 유사성을 가진다는 가정으로 출발한다.
- 주변에 등장하는 단어의 유사성은 높이고, 멀리 떨어진 단어들의 유사성은 낮춘다.
- 문장을 토큰화(Tokenizing)하고, 단어 집합을 먼저 만든다.
- CBOW : 주변 단어로 중심 단어를 예측한다.
- Skip-Gram : 중심 단어로 주변 단어를 예측한다.
Glove
- 사전에 동시 등장 횟수를 계산하며, 단어간의 내적값과 사전에 계산된 값의 차이를 줄여가는 형태로 학습한다.
- word2vec은 window size내 주변 단어만을 확인하는 한계가 있다.
- word2vec, count기반을 동시에 가진 방법
* 코사인 유사도
- 두 벡터 사이의 각도가 작을 수록 내적값이 커진다 (유사도가 높다)
'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글
validation set의 data augmentation (0) | 2024.05.04 |
---|---|
머신러닝 VS 딥러닝 (0) | 2024.04.17 |
Bag of Words (0) | 2024.01.07 |
Vanishing Gradient Problem(기울기 소실) (0) | 2023.11.28 |
전이학습 (Transfer Learning) (0) | 2023.10.17 |