텍스트 임베딩 해보기
·
ML_DL/딥러닝 공부하기
1. 가상환경 구축conda create -n embedding python==3.122. 필수 라이브러리 설치conda activate embeddingpip install sentence-transformerssentence-transformers : 문장 임베딩을 위한 Python 라이브러리. 임베딩, 유사도 계산 등이 가능함3. 임베딩 결과 출력from sentence_transformers import SentenceTransformer# 모델 'all-MiniLM-L6-v2' 활용model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')texts = ["안녕하세요"]embeddings = model.encode(texts)# 결..
Word Embedding
·
ML_DL/딥러닝 공부하기
Embedding (Embedding Vector) 단어를 실수 형태의 벡터로 표현한 결과 BoW : 단어의 등장 횟수로 벡터화한다. TF-IDF : 의미없는 단어의 특징을 없애기 위해 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 통해 의미 없단어를 제외한 단어들의 벡터를 얻을 수 있다. Word Embedding 자연어 처리에서의 단어 표현 방법 기존 임베딩 기법은 단어간의 상관계나 관련성을 표현할 수 없다. 정해진 차원 내에서 0, 1뿐만 아닌 실수값을 가지는 벡터로, Dense Representation(밀집표현)이다. Word2Vec 문장 내에 비슷한 위치의 단어는 유사성을 가진다는 가정으로 출발한다. 주변에 등장하는 단어의 유사성은 높이고, 멀리..