2015년 11월 11일 수요일

Elasticsearch에서 제공되는 자연어 처리 기능 정리

Elasticsearch의 자연어(Human language) 처리 기능에 대해서 표로 정리합니다.

구분 요약 세부 요소 비고
Identifying Words 단어 인지하기 ICU plug-in 단어 인지
Normalizing Tokens 일반화 하기 folding 일반화
sort and collation 언어별 정렬 기준
Reducing Words to Root Form 뿌리 단어 인지 Algorithmic Stemmer 패턴 알고리즘 방식
Dictionary Stemmer 사전 매칭 방식
Strowords
: Performance Versus Precision
제외 단어 사용 Stropwords 성능과 정확도 관계 고려
Synonyms 동의어 인지 Case-sensitive Synonyms

Typoes and Mispelings 타이핑 실수 인지 Fuzzy 오타 강도 인지
Phonetic 동음 타이핑 인지

* ICU
 - International Components for Unicode
 - OpenSource Project
 - Contributions : IBM, Apple, Google

0 개의 댓글:

댓글 쓰기