diff --git a/Changelog b/Changelog new file mode 100644 index 0000000..ba1e349 --- /dev/null +++ b/Changelog @@ -0,0 +1,79 @@ +2013-04-22: version 0.27 +======================== +1) 新增并行分词功能,可以在多核计算机上显著提高分词速度 +2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理 +3) 修正了python2.6存在的兼容性问题 + + +2013-04-07: version 0.26 +======================== +1) 改进了对标点符号的处理,之前的版本会过滤掉所有的标点符号; +2) 允许用户在自定义词典中添加词性; +3) 改进了关键词提取的功能jieba.analyse.extract_tags; +4) 修复了一个在pypy解释器下运行的bug. + + +2013-02-18: version 0.25 +======================== +1)支持繁体中文的分词 +2)修正了多python进程时生成cache文件失败的bug + + +2012-12-28: version 0.24 +======================== +1) 解决了没有标点的长句子分词效果差的问题,问题在于连续的小概率乘法可能会导致浮点下溢或为0. +2) 修复了0.23的全模式下英文分词的bug + + +2012-12-12: version 0.23 +======================== +1) 修复了之前版本不能识别中英混合词语的问题 + + +2012-11-28: version 0.22 +======================== +1) 新增jieba.cut_for_search方法, 该方法在精确分词的基础上对“长词”进行再次切分,适用于搜索引擎领域的分词,比精确分词模式有更高的召回率。 +2) 开始支持Python3.x版。 之前一直是只支持Python2.x系列,从这个版本起有一个单独的jieba3k + + +2012-11-23: version 0.21 +======================== +1) 修复了全模式分词中散字过多的问题 +2) 用户自定义词典函数load_userdict支持file-like object作为输入 + + +2012-11-06: version 0.20 +======================== +1) 新增词性标注功能 + + +2012-10-25: version 0.19 +======================== +1) 提升了模块加载的速度 +2) 增加了用户自定义词典的接口 + + +2012-10-16: version 0.18 +======================== +1) 增加关键词提取功能 + + +2012-10-12: version 0.17 +======================== +1) 将词典文件dict.txt排序后存储,提升了Trie树构建速度,使得组件初始化时间缩短了10%; +2) 增强了人名词语的训练,增强了未登录人名词语的识别能力 + + +2012-10-09: version 0.16 +======================== +1)将求最优切分路径的记忆化递归搜索算法改用循环实现,使分词速度提高了15% + +2) 修复了Viterbi算法实现上的一个Bug + + +2012-10-07: version 0.14 +======================== +1) 结巴分词被发布到了pypi,用户可以通过easy_install或者pip快速安装该组件; +2) 合并了搜狗开源词库2006版,删除了一些低频词 +3) 优化了代码,缩短了程序初始化时间。 +4) 增加了在线效果演示 \ No newline at end of file