| 구분 | 요약 | 세부 요소 | 비고 |
| Identifying Words | 단어 인지하기 | ICU plug-in | 단어 인지 |
| Normalizing Tokens | 일반화 하기 | folding | 일반화 |
| sort and collation | 언어별 정렬 기준 | ||
| Reducing Words to Root Form | 뿌리 단어 인지 | Algorithmic Stemmer | 패턴 알고리즘 방식 |
| Dictionary Stemmer | 사전 매칭 방식 | ||
| Strowords : Performance Versus Precision |
제외 단어 사용 | Stropwords | 성능과 정확도 관계 고려 |
| Synonyms | 동의어 인지 | Case-sensitive Synonyms | |
| Typoes and Mispelings | 타이핑 실수 인지 | Fuzzy | 오타 강도 인지 |
| Phonetic | 동음 타이핑 인지 |
* ICU
- International Components for Unicode
- OpenSource Project
- Contributions : IBM, Apple, Google
0 개의 댓글:
댓글 쓰기