구분 | 요약 | 세부 요소 | 비고 |
Identifying Words | 단어 인지하기 | ICU plug-in | 단어 인지 |
Normalizing Tokens | 일반화 하기 | folding | 일반화 |
sort and collation | 언어별 정렬 기준 | ||
Reducing Words to Root Form | 뿌리 단어 인지 | Algorithmic Stemmer | 패턴 알고리즘 방식 |
Dictionary Stemmer | 사전 매칭 방식 | ||
Strowords : Performance Versus Precision |
제외 단어 사용 | Stropwords | 성능과 정확도 관계 고려 |
Synonyms | 동의어 인지 | Case-sensitive Synonyms | |
Typoes and Mispelings | 타이핑 실수 인지 | Fuzzy | 오타 강도 인지 |
Phonetic | 동음 타이핑 인지 |
* ICU
- International Components for Unicode
- OpenSource Project
- Contributions : IBM, Apple, Google
0 개의 댓글:
댓글 쓰기