[자연어처리] Word Embedding
·
ML_DL/딥러닝 공부하기
정수 인코딩 형태소 기준으로 토큰화하여 단어 집합을 만들면 다음과 같다. 하지만 단어들 사이에 연관성을 나타내지 못한다. from konly.tag import Okt okt = Okt() tokens = okt.morphs('나는 사과를 좋아한다') print(tokens) # ['나', '는', '사과', '를', '좋아한다'] word_to_index = {word : index for index, word in enumerate(tokens)} print('단어 집합 :',word_to_index) # 단어 집합 : {'나': 0, '는': 1, '사과': 2, '를': 3, '좋아한다': 4} 원-핫 인코딩 (One-Hot Encoding) 원-핫 인코딩은 해당하는 단어를 1로, 나머지는 전부 ..
[데이터분석] 서울시 성별 연령대별 음식 업종 소비트렌드(2023년 8월)
·
데이터사이언스/EDA
개요 데이터 : [롯데카드] 서울시 성별 연령대별 음식 업종 소비트렌드(2023년 8월) 출처 : 금융데이터거래소 데이터 살펴보기 crym : 결제 월 ana_mgpo_nm : 행정구역 (서울시) ana_ccd_nm : 행정구역 (25개 구) tco_btc_nm : 결제 업종 ma_fem_dc : 성별 ana_agegrp_dc : 연령대 sl_am : 업종 구분 (롯데카드 자체 구분) sl_ct : 이용 금액 주제 1 - 연령대 별 결제 금액의 평균 살펴보기 data.groupby(['ana_ccd_nm','ana_agegrp_dc', 'ma_fem_dc'])['sl_ct'].count().to_frame() subject1 = data['sl_ct'].groupby(data['ana_agegrp_dc'..
이미지 불러오기
·
ML_DL/딥러닝 공부하기
OpenCV 활용 cv2.imread는 color 채널이 BGR 순서이기 때문에 RGB로 바꾸는 작업이 필요하다. jupyter curnel에서는 cv2.imshow()가 crash를 일으킬 수 있기 때문에 plt.imshow()를 활용한다. img.shape은 (height, width, channel) 순서이다. import cv2 import matplotlib.pyplot as plt img = cv2.imread('./dog.jpg') plt.imshow(img) Pillow 활용 이미지를 show()를 통해 확인할 경우, jupyter kernel과 crash가 날 수 있기 때문에 plt.imshow()를 활용한다. Image.open()을 활용할 경우, shape을 확인할 수 없다. from..
그래프의 사이클 판별
·
코딩테스트
무(無)방향 그래프 서로소 집합은 공통 원소가 없는 두 집합을 의미한다. find함수는 해당 노드의 root 노드를 찾는 함수이다. union은 두 노드가 속한 집합을 합치는 함수이다. 만약 root 노드가 같다면, 이는 사이클이 존재함을 의미한다. def find(x, parent): if x != parent[x]: parent[x] = find(parent[x], parent) return parent[x] def union(a,b,parent): a = find(a, parent) b = find(b, parent) parent[max(a,b)] = min(a,b) 방향 그래프 방문 여부를 확인하는 visited, 현재 탐색 경로를 나타내는 stack을 노드의 개수만큼 정의한다. 모든 노드에 대해..
그래프 표현
·
코딩테스트
인접 행렬 2차원 리스트를 자료구조로 활용한다. 자기 자신은 0으로 하는 정사각행렬이다. 두 노드 사이를 가중치로 표시한다. 인접 리스트 리스트를 활용한다. N번 노드에 N번 노드와 연결된 노드를 append한다. 가중치가 있을 경우, (노드, 가중치)를 append한다.
2차원 리스트 생성
·
Python 활용하기
python에서 아래와 같이 2차원 리스트를 생성하면, 얕은 복사가 되어 A의 모든 요소가 같은 객체를 가리킨다. A = [[0]*4] * 3 따라서, 아래와 같이 for문을 활용하여 2차원 리스트를 생성해야한다. A = [[0 for _ in range(4)] for _ in range(4)]