version change & document update

2025-07-10 00:01:33 +08:00 · 2012-10-25 17:22:01 +08:00 · 2012-10-25 17:22:01 +08:00 · cef1a189c8
commit cef1a189c8
parent d040e92987
2 changed files with 16 additions and 3 deletions
--- a/README.md
+++ b/README.md
@ -21,7 +21,7 @@ Algorithm
 * 采用了记忆化搜索实现最大概率路径的计算, 找出基于词频的最大切分组合
 * 对于未登录词，采用了基于汉字位置概率的模型，使用了Viterbi算法

-功能：分词 
+功能 1)：分词 
 ==========
 * jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制分词模式
 * 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
@ -50,8 +50,21 @@ Output:

 	他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

+功能 2) ：添加自定义词典
+* 开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率
+* 用法： jieba.load_userdict(file_name) # file_name为自定义词典的路径
+* 词典格式和dict.txt一样，一个词占一行；每一行分为两部分，一部分为词语，另一部分为词频，用空格隔开
+* 范例：

-功能：关键词提取
+	云计算 5
+	李小福 2
+	创新办 3
+
+	之前： 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
+	加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
+
+
+功能 3) ：关键词提取
 ================
 * jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
 * setence为待提取的文本
--- a/setup.py
+++ b/setup.py
@ -1,6 +1,6 @@
 from distutils.core import setup  
 setup(name='jieba',  
-      version='0.18',  
+      version='0.19',  
      description='Chinese Words Segementation Utilities',  
      author='Sun, Junyi',  
      author_email='ccnusjy@gmail.com',