From e59aea26afdcc774555bae3e1725cbc57321f706 Mon Sep 17 00:00:00 2001 From: Aszxqw Date: Sun, 15 Sep 2013 09:54:32 +0800 Subject: [PATCH 1/2] Update README.md --- README.md | 13 +++++++------ 1 file changed, 7 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index 4dedf93..8068fe6 100644 --- a/README.md +++ b/README.md @@ -13,17 +13,18 @@ Trie.cpp/Trie.h 负责载入词典的trie树,主要供Segment模块使用。 MPSegment.cpp/MPSegment.h (Maximum Probability)最大概率法:负责根据Trie树构建有向无环图和进行动态规划算法,是分词算法的核心。 -### TransCode模块 - -TransCode.cpp/TransCode.h 负责转换编码类型,将utf8和gbk都转换成`uint16_t`类型,也负责逆转换。 - -### HMMSegment模块 - HMMSegment.cpp/HMMSegment.h 是根据HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。 HMM模型由dicts/下面的`hmm_model.utf8`提供。 分词算法即viterbi算法。 + +### TransCode模块 + +TransCode.cpp/TransCode.h 负责转换编码类型,将utf8和gbk都转换成`uint16_t`类型,也负责逆转换。 + + + ## Demo ### MPSegment's demo From 8d3e47af3b51b4c03df46c6dba5d0860bd86e976 Mon Sep 17 00:00:00 2001 From: Wu Yanyi Date: Wed, 18 Sep 2013 09:52:22 +0800 Subject: [PATCH 2/2] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 8068fe6..87d76c4 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ -#CppJieba是"结巴"中文分词的C++库 +#CppJieba是"结巴"中文分词的C++版本 ## 中文编码 * 现在支持utf8,gbk编码的分词。默认编码是utf8。