add algorithm in README.md

2025-07-18 00:00:12 +08:00 · 2013-08-25 22:30:50 +08:00 · 2013-08-25 22:30:50 +08:00 · e2f9757752
commit e2f9757752
parent 401a4885e5
1 changed files with 18 additions and 7 deletions
--- a/README.md
+++ b/README.md
@ -1,10 +1,21 @@
 #CppJieba是"结巴"中文分词的c++库

-
 ##Detail
->1.现在支持utf8,gbk编码的分词。默认编码是utf8。  
->2.分词算法上还没增加HMM模型这部分。    
->3.关键词抽取是暂时是针对类似title之类的超短语句使用，与一般文本的关键词抽取思路不同。    
+* 现在支持utf8,gbk编码的分词。默认编码是utf8。  
+
+##Algorithm
+
+###Trie树
+Trie.cpp/Trie.h 负责载入词典的trie树，主要供Segment模块使用。
+###Segment模块
+Segment.cpp/Segment.h 
+负责根据Trie树构建有向无环图和进行动态规划算法，是分词算法的核心。
+###TransCode模块
+TransCode.cpp/TransCode.h 负责转换编码类型，将utf8和gbk都转换成`uint16_t`类型，也负责逆转换。
+###HMMSegment模块
+HMMSegment.cpp/HMMSegment.h
+是根据HMM模型来进行分词，主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。
+HMM模型由dicts/下面的`hmm_model.utf8`提供。

 ##Demo

@ -31,10 +42,10 @@ example:
 ```

 ##Contact
-wuyanyi09@gmail.com
+如果有运行问题或者任何疑问，欢迎联系 : wuyanyi09@gmail.com

 ##Thanks
->"结巴中文"分词作者: SunJunyi  
->https://github.com/fxsjy/jieba
+"结巴中文"分词作者: SunJunyi  
+https://github.com/fxsjy/jieba