[Elasticsearch] 동의어 처리하기
·
데이터엔지니어링
Elasticsearch에 데이터를 넣고, search로 검색을 하면 내가 쓰건 검색엔진과 똑같겠지? 라고 생각하면 오산이다.기본적인 setting으로는 'ai'는 'ai'만 검색할 수 있고, 'llm'이나 'gpt'같은 유사하게 사용되는 단어는 검색할 수 없다.혹시나 'ai는'이 포함된 글을 검색하는 것도 불가능하다. 그렇다면 Elasticsearch에서 이러한 동의어는 어떻게 처리할까?기본 설정에서의 'ai' 검색index 설정 및 document 삽입# synonyms_test index 생성PUT /synonyms_test# _bulk API를 통해 동시에 여러개의 document 삽입POST /synonyms_test/_bulk{ "index": { "_id": 1 } }{ "descriptio..
Data Lake, Data Warhouse, Data Mart
·
데이터엔지니어링
Data Lake원시 데이터 및 비정형 데이터 (구조화, 반구조화, 비정형)실시간 분석이나 ML에 활용검색 및 처리가 비교적 어려움ex - SNS의 게시물, 댓글, 좋아요, 영상 데이터 등Data Warhouse여러 부서의 데이터를 통합하여 저장데이터를 구조화된 형식으로 저장주기적 업데이트 (실시간 처리보다 배치 처리 방식)Data Mart금융, 마케팅 또는 영업 부서와 같은 특정 사업부의 요구 사항을 지원하는 data warehousedata warehouse 보다 작은 규모로 운영빠르게 접근하여 분석 가능구조화된 데이터 사용