오늘 lucene 홈페이지 들어갔다가 알게됐다. 2월 14일에 새 release가 발표됐다.

lucene으로 프로그래밍 한 지 좀 지나서 또 가물가물 해졌지만... 그래도 관심이 있어 좀 읽어 봤는데, 몇 가지 내용만 정리해 봤다.

Changes
* 's'와 't'가 StopAnalyzer(StandardAnalyzer에서도 사용됨)의 stopword에서 제거됨.
* StandardAnalyzer의 CJK에 대한 unicode code point ranges가 update됐다.(CJ와 K로 분리됨)
* WildcardQuery의 queryString에 ? 나 *가 포함되어 있지 않으면 알아서 TermQuery를 수행한다. 이전 버젼의 경우에는 StringIndexOutOfBoundsException이 발생했었다
* deprecated되었던 doc.fields() 와 Enumeration을 제거
* write lock 파일이 Index directory에 생성됨. 이전에는 "org.apache.lucene.lockDir" or "java.io.tmpdir"였음.
 - 첨엔 write lock이 어디 있는지 몰라 헤맸었는데, 찾기 쉬워진 듯

New Feature
* ThaiAnalyzer와 ThaiWordFilter가 추가됨
 - 태국어쪽 작업하는 사람은 별로 없겠지만... 요즘 게임업체는 태국에 많이 진출했으니, 그 업체들에서 CS 툴의 검색 기능을 lucene으로 붙일 수 있을 듯 ^^''
* NGramTokenizer와 EdgeNGramTokenizer class 추가됐고, unit test를 통과
 - cjk analyzer는 특정 unicode 범위에 대해서는 2-gram 방식인걸로 알고 있는데, NGram을 응용하면 보다 나은 검색 시스템을 만들 수 있을까???
* IndexWriter에 document를 update(내부적으로는 delete then add)할 수 있는 method추가
 - 귀찮게 delete했다가 add할 것 없이 바로 update할 수 있으니 조금 편할 듯

더 자세한 내용은 아래에서...

출처 : http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_1_0/CHANGES.txt

+ Recent posts