Bag of Words

728x90

Bag of Words

단어의 출현 빈도에 집중해 텍스트를 수치화 하는 표현 방법이다.
기존에 학습된 단어를 기반으로 하기 때문에, 새로운 단어에 대한 처리가 어렵다.
띄어쓰기를 기반으로 하는 영어에는 적용이 간단하다면, 중국어나 일본어, 한국어 등에는 사용이 어렵다.
scikit-learn의 CountVectorizer를 통해 쉽게 구현할 수 있다.

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
sentence = ["John likes to watch movies. Mary likes movies too."]

vectorized_sentence = vectorizer.fit_transform(sentence)
print(vectorized_sentence.toarray())
print(vectorizer.vocabulary_)


# [[1 2 1 2 1 1 1]]
# {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}

저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

머신러닝 VS 딥러닝 (0)	2024.04.17
Word Embedding (0)	2024.01.08
Vanishing Gradient Problem(기울기 소실) (0)	2023.11.28
전이학습 (Transfer Learning) (0)	2023.10.17
[자연어처리] Word Embedding (1)	2023.10.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Bag of Words

Bag of Words

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역