Bag of Words

2024. 1. 7. 00:54·ML_DL/딥러닝 공부하기
목차
  1. Bag of Words
728x90
반응형

Bag of Words

  • 단어의 출현 빈도에 집중해 텍스트를 수치화 하는 표현 방법이다.
  • 기존에 학습된 단어를 기반으로 하기 때문에, 새로운 단어에 대한 처리가 어렵다.
  • 띄어쓰기를 기반으로 하는 영어에는 적용이 간단하다면, 중국어나 일본어, 한국어 등에는 사용이 어렵다.
  • scikit-learn의 CountVectorizer를 통해 쉽게 구현할 수 있다.
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
sentence = ["John likes to watch movies. Mary likes movies too."]

vectorized_sentence = vectorizer.fit_transform(sentence)
print(vectorized_sentence.toarray())
print(vectorizer.vocabulary_)


# [[1 2 1 2 1 1 1]]
# {'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}
저작자표시 (새창열림)

'ML_DL > 딥러닝 공부하기' 카테고리의 다른 글

머신러닝 VS 딥러닝  (0) 2024.04.17
Word Embedding  (0) 2024.01.08
Vanishing Gradient Problem(기울기 소실)  (0) 2023.11.28
전이학습 (Transfer Learning)  (0) 2023.10.17
[자연어처리] Word Embedding  (1) 2023.10.14
  1. Bag of Words
'ML_DL/딥러닝 공부하기' 카테고리의 다른 글
  • 머신러닝 VS 딥러닝
  • Word Embedding
  • Vanishing Gradient Problem(기울기 소실)
  • 전이학습 (Transfer Learning)
swwho
swwho
일상을 데이터화하다
  • swwho
    하루한장
    swwho
  • 전체
    오늘
    어제
    • 분류 전체보기 (188)
      • ML_DL (39)
        • MUJAKJUNG (무작정 시리즈) (18)
        • 딥러닝 공부하기 (21)
      • 데이터사이언스 (1)
        • EDA (1)
        • 데이터과학을 위한 통계 (0)
      • 데이터엔지니어링 (2)
      • 논문리뷰 (2)
        • Computer Vision (2)
      • Python 활용하기 (12)
      • 코딩테스트 (127)
        • Python (109)
        • MySQL (14)
      • Git (3)
      • MySQL 활용하기 (0)
      • 일상 이야기 (1)
  • 블로그 메뉴

    • 홈
    • 태그
  • 최근 글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
swwho
Bag of Words
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.