add algorithm in README.md

This commit is contained in:
gwdwyy 2013-08-25 22:30:50 +08:00
parent 401a4885e5
commit e2f9757752

View File

@ -1,10 +1,21 @@
#CppJieba是"结巴"中文分词的c++库
##Detail
>1.现在支持utf8,gbk编码的分词。默认编码是utf8。
>2.分词算法上还没增加HMM模型这部分。
>3.关键词抽取是暂时是针对类似title之类的超短语句使用与一般文本的关键词抽取思路不同。
* 现在支持utf8,gbk编码的分词。默认编码是utf8。
##Algorithm
###Trie树
Trie.cpp/Trie.h 负责载入词典的trie树主要供Segment模块使用。
###Segment模块
Segment.cpp/Segment.h
负责根据Trie树构建有向无环图和进行动态规划算法是分词算法的核心。
###TransCode模块
TransCode.cpp/TransCode.h 负责转换编码类型将utf8和gbk都转换成`uint16_t`类型,也负责逆转换。
###HMMSegment模块
HMMSegment.cpp/HMMSegment.h
是根据HMM模型来进行分词主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。
HMM模型由dicts/下面的`hmm_model.utf8`提供。
##Demo
@ -31,10 +42,10 @@ example:
```
##Contact
wuyanyi09@gmail.com
如果有运行问题或者任何疑问,欢迎联系 : wuyanyi09@gmail.com
##Thanks
>"结巴中文"分词作者: SunJunyi
>https://github.com/fxsjy/jieba
"结巴中文"分词作者: SunJunyi
https://github.com/fxsjy/jieba