[자연어처리] Word Embedding
·
ML_DL/딥러닝 공부하기
정수 인코딩 형태소 기준으로 토큰화하여 단어 집합을 만들면 다음과 같다. 하지만 단어들 사이에 연관성을 나타내지 못한다. from konly.tag import Okt okt = Okt() tokens = okt.morphs('나는 사과를 좋아한다') print(tokens) # ['나', '는', '사과', '를', '좋아한다'] word_to_index = {word : index for index, word in enumerate(tokens)} print('단어 집합 :',word_to_index) # 단어 집합 : {'나': 0, '는': 1, '사과': 2, '를': 3, '좋아한다': 4} 원-핫 인코딩 (One-Hot Encoding) 원-핫 인코딩은 해당하는 단어를 1로, 나머지는 전부 ..