Bag of Words
·
ML_DL/딥러닝 공부하기
Bag of Words 단어의 출현 빈도에 집중해 텍스트를 수치화 하는 표현 방법이다. 기존에 학습된 단어를 기반으로 하기 때문에, 새로운 단어에 대한 처리가 어렵다. 띄어쓰기를 기반으로 하는 영어에는 적용이 간단하다면, 중국어나 일본어, 한국어 등에는 사용이 어렵다. scikit-learn의 CountVectorizer를 통해 쉽게 구현할 수 있다. from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() sentence = ["John likes to watch movies. Mary likes movies too."] vectorized_sentence = vectorizer.fit_transf..
[자연어처리] Word Embedding
·
ML_DL/딥러닝 공부하기
정수 인코딩 형태소 기준으로 토큰화하여 단어 집합을 만들면 다음과 같다. 하지만 단어들 사이에 연관성을 나타내지 못한다. from konly.tag import Okt okt = Okt() tokens = okt.morphs('나는 사과를 좋아한다') print(tokens) # ['나', '는', '사과', '를', '좋아한다'] word_to_index = {word : index for index, word in enumerate(tokens)} print('단어 집합 :',word_to_index) # 단어 집합 : {'나': 0, '는': 1, '사과': 2, '를': 3, '좋아한다': 4} 원-핫 인코딩 (One-Hot Encoding) 원-핫 인코딩은 해당하는 단어를 1로, 나머지는 전부 ..