Word Embedding

2024. 1. 8. 23:03·ML_DL/딥러닝 공부하기
목차
  1. Embedding (Embedding Vector)
  2. Word Embedding
  3. Word2Vec
  4.  
  5. Glove
728x90
반응형

Embedding (Embedding Vector)

  • 단어를 실수 형태의 벡터로 표현한 결과
  • BoW : 단어의 등장 횟수로 벡터화한다.
  • TF-IDF : 의미없는 단어의 특징을 없애기 위해 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 통해 의미 없단어를 제외한 단어들의 벡터를 얻을 수 있다.

Word Embedding

  • 자연어 처리에서의 단어 표현 방법
  • 기존 임베딩 기법은 단어간의 상관계나 관련성을 표현할 수 없다.
  • 정해진 차원 내에서 0, 1뿐만 아닌 실수값을 가지는 벡터로, Dense Representation(밀집표현)이다.

Word2Vec

word2vec 목적함수

  • 문장 내에 비슷한 위치의 단어는 유사성을 가진다는 가정으로 출발한다.
  • 주변에 등장하는 단어의 유사성은 높이고, 멀리 떨어진 단어들의 유사성은 낮춘다.
  • 문장을 토큰화(Tokenizing)하고, 단어 집합을 먼저 만든다.
  • CBOW : 주변 단어로 중심 단어를 예측한다.
  • Skip-Gram : 중심 단어로 주변 단어를 예측한다.

 

Glove

  • 사전에 동시 등장 횟수를 계산하며, 단어간의 내적값과 사전에 계산된 값의 차이를 줄여가는 형태로 학습한다.
  • word2vec은 window size내 주변 단어만을 확인하는 한계가 있다.
  • word2vec, count기반을 동시에 가진 방법

* 코사인 유사도

  • 두 벡터 사이의 각도가 작을 수록 내적값이 커진다 (유사도가 높다)
저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

validation set의 data augmentation  (0) 2024.05.04
머신러닝 VS 딥러닝  (1) 2024.04.17
Bag of Words  (0) 2024.01.07
Vanishing Gradient Problem(기울기 소실)  (0) 2023.11.28
전이학습 (Transfer Learning)  (0) 2023.10.17
  1. Embedding (Embedding Vector)
  2. Word Embedding
  3. Word2Vec
  4.  
  5. Glove
'ML_DL/딥러닝 공부하기' 카테고리의 다른 글
  • validation set의 data augmentation
  • 머신러닝 VS 딥러닝
  • Bag of Words
  • Vanishing Gradient Problem(기울기 소실)
swwho
swwho
일상을 데이터화하다
  • swwho
    하루한장
    swwho
  • 전체
    오늘
    어제
    • 분류 전체보기 (189)
      • ML_DL (40)
        • MUJAKJUNG (무작정 시리즈) (19)
        • 딥러닝 공부하기 (21)
      • 데이터사이언스 (1)
        • EDA (1)
        • 데이터과학을 위한 통계 (0)
      • 데이터엔지니어링 (2)
      • 논문리뷰 (2)
        • Computer Vision (2)
      • Python 활용하기 (12)
      • 코딩테스트 (127)
        • Python (109)
        • MySQL (14)
      • Git (3)
      • MySQL 활용하기 (0)
      • 일상 이야기 (1)
  • 블로그 메뉴

    • 홈
    • 태그
  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
swwho
Word Embedding
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.