add segment speed info in README.md

2025-07-18 00:00:12 +08:00 · 2013-09-13 19:31:53 +08:00 · 2013-09-13 19:31:53 +08:00 · e11420159b
commit e11420159b
parent eb233abbdd
1 changed files with 24 additions and 11 deletions
--- a/README.md
+++ b/README.md
@ -1,18 +1,24 @@
-#CppJieba是"结巴"中文分词的c++库
+#CppJieba是"结巴"中文分词的C++库

-##Detail
+## 中文编码
 * 现在支持utf8,gbk编码的分词。默认编码是utf8。  

-##Algorithm
+## 模块详解

 ### Trie树
 Trie.cpp/Trie.h 负责载入词典的trie树，主要供Segment模块使用。
+
 ### Segment模块
+
 MPSegment.cpp/MPSegment.h 
 (Maximum Probability)最大概率法:负责根据Trie树构建有向无环图和进行动态规划算法，是分词算法的核心。
+
 ### TransCode模块
+
 TransCode.cpp/TransCode.h 负责转换编码类型，将utf8和gbk都转换成`uint16_t`类型，也负责逆转换。
+
 ### HMMSegment模块
+
 HMMSegment.cpp/HMMSegment.h
 是根据HMM模型来进行分词，主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。
 HMM模型由dicts/下面的`hmm_model.utf8`提供。
@ -106,6 +112,13 @@ example:

 ```

+## 分词速度
+
+### MixSegment
+分词速度大概是 65M / 78sec = 0.83M/sec
+测试环境: `Intel(R) Xeon(R) CPU  E5506  @ 2.13GHz`
+
+
 ## Contact
 如果有运行问题或者任何疑问，欢迎联系 : wuyanyi09@gmail.com