From e2f9757752cf861936ceab67e1daa6ab87050448 Mon Sep 17 00:00:00 2001 From: gwdwyy Date: Sun, 25 Aug 2013 22:30:50 +0800 Subject: [PATCH] add algorithm in README.md --- README.md | 25 ++++++++++++++++++------- 1 file changed, 18 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index b95df6f..3a7f548 100644 --- a/README.md +++ b/README.md @@ -1,10 +1,21 @@ #CppJieba是"结巴"中文分词的c++库 - ##Detail ->1.现在支持utf8,gbk编码的分词。默认编码是utf8。 ->2.分词算法上还没增加HMM模型这部分。 ->3.关键词抽取是暂时是针对类似title之类的超短语句使用,与一般文本的关键词抽取思路不同。 +* 现在支持utf8,gbk编码的分词。默认编码是utf8。 + +##Algorithm + +###Trie树 +Trie.cpp/Trie.h 负责载入词典的trie树,主要供Segment模块使用。 +###Segment模块 +Segment.cpp/Segment.h +负责根据Trie树构建有向无环图和进行动态规划算法,是分词算法的核心。 +###TransCode模块 +TransCode.cpp/TransCode.h 负责转换编码类型,将utf8和gbk都转换成`uint16_t`类型,也负责逆转换。 +###HMMSegment模块 +HMMSegment.cpp/HMMSegment.h +是根据HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态。 +HMM模型由dicts/下面的`hmm_model.utf8`提供。 ##Demo @@ -31,10 +42,10 @@ example: ``` ##Contact -wuyanyi09@gmail.com +如果有运行问题或者任何疑问,欢迎联系 : wuyanyi09@gmail.com ##Thanks ->"结巴中文"分词作者: SunJunyi ->https://github.com/fxsjy/jieba +"结巴中文"分词作者: SunJunyi +https://github.com/fxsjy/jieba