Merge pull request #106 from jannson/master

add better support for english for ChineseAnalyzer
2025-07-10 00:01:33 +08:00 · 2013-09-16 23:58:46 -07:00 · 2013-09-16 23:58:46 -07:00 · fd96527f71
commit fd96527f71
parent 6a66620088 31d5845535
2 changed files with 6 additions and 4 deletions
--- a/jieba/analyse/analyzer.py
+++ b/jieba/analyse/analyzer.py
@ -1,6 +1,7 @@
 #encoding=utf-8
-from whoosh.analysis import RegexAnalyzer,LowercaseFilter,StopFilter
+from whoosh.analysis import RegexAnalyzer,LowercaseFilter,StopFilter,StemFilter
 from whoosh.analysis import Tokenizer,Token 
 from whoosh.lang.porter import stem
 import jieba
 import re
@ -29,5 +30,6 @@ class ChineseTokenizer(Tokenizer):
            token.endchar = stop_pos
            yield token
-def ChineseAnalyzer(stoplist=STOP_WORDS,minsize=1):
+def ChineseAnalyzer(stoplist=STOP_WORDS,minsize=1,stemfn=stem,cachesize=50000):
-    return ChineseTokenizer() | LowercaseFilter() | StopFilter(stoplist=stoplist,minsize=minsize)
+    return ChineseTokenizer() | LowercaseFilter() | StopFilter(stoplist=stoplist,minsize=minsize)\
                                        |StemFilter(stemfn=stemfn, ignore=None,cachesize=cachesize)
--- a/test/test_whoosh.py
+++ b/test/test_whoosh.py
@ -59,5 +59,5 @@ for keyword in (u"水果世博园",u"你",u"first",u"中文",u"交换机",u"交
        print hit.highlights("content")
    print "="*10
-for t in analyzer(u"我的好朋友是李明;我爱北京天安门;IBM和Microsoft; I have a dream."):
+for t in analyzer(u"我的好朋友是李明;我爱北京天安门;IBM和Microsoft; I have a dream. this is intetesting and interested me a lot"):
    print t.text