mirror of https://github.com/yanyiwu/cppjieba.git synced 2025-07-18 00:00:12 +08:00

Go to file

yanyiwu 42a93a4b98 Refactor decoding functions to use UTF-8 compliant methods

Updated multiple files to replace instances of DecodeRunesInString with DecodeUTF8RunesInString, ensuring proper handling of UTF-8 encoded strings. This change enhances the robustness of string decoding across the cppjieba library, including updates in DictTrie, HMMModel, PosTagger, PreFilter, SegmentBase, and Unicode files. Additionally, corresponding unit tests have been modified to reflect these changes.

2024-12-08 16:46:24 +08:00

.github/workflows

[stale-isssues] Monthly on the 3rd day of the month at midnight

2024-11-03 17:22:28 +08:00

deps

limonp v0.9.0 -> v1.0.0

2024-09-07 17:21:59 +08:00

dict

update user dict loading method about word weight, and add unit tests

2016-07-22 23:53:49 +08:00

include/cppjieba

Refactor decoding functions to use UTF-8 compliant methods

2024-12-08 16:46:24 +08:00

test

Refactor decoding functions to use UTF-8 compliant methods

2024-12-08 16:46:24 +08:00

.gitignore

Put build folder to gitignore

2014-01-17 19:08:53 +08:00

.gitmodules

[submodules] rm test/googletest

2024-08-16 10:08:36 +08:00

CHANGELOG.md

v5.4.0

2024-09-22 10:02:53 +08:00

CMakeLists.txt

cmake: avoid testing when FetchContent by other project

2024-09-22 00:25:23 +08:00

LICENSE

Fix end of line sequence, use LF instead of CRLF

2022-07-10 16:38:27 +08:00

README.md

Update Demo Link in README.md

2024-09-21 17:21:54 +08:00

README.md

CppJieba

简介

CppJieba是"结巴(Jieba)"中文分词的C++版本

特性

源代码都写进头文件include/cppjieba/*.hpp里，include即可使用。
支持utf8编码。
项目自带较为完善的单元测试，核心功能中文分词(utf8)的稳定性接受过线上环境检验。
支持载自定义用户词典，多路径时支持分隔符'|'或者';'分隔。
支持 Linux , Mac OSX, Windows 操作系统。

用法

依赖软件

g++ (version >= 4.1 is recommended) or clang++;
cmake (version >= 2.6 is recommended);

下载和编译

git clone https://github.com/yanyiwu/cppjieba.git
cd cppjieba
git submodule init
git submodule update
mkdir build
cd build
cmake ..
make

有兴趣的可以跑跑测试(可选):

make test

Demo

./demo

结果示例：

[demo] Cut With HMM
他/来到/了/网易/杭研/大厦
[demo] Cut Without HMM
他/来到/了/网易/杭/研/大厦
我来到北京清华大学
[demo] CutAll
我/来到/北京/清华/清华大学/华大/大学
小明硕士毕业于中国科学院计算所，后在日本京都大学深造
[demo] CutForSearch
小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/，/后/在/日本/京都/大学/日本京都大学/深造
[demo] Insert User Word
男默/女泪
男默女泪
[demo] CutForSearch Word With Offset
[{"word": "小明", "offset": 0}, {"word": "硕士", "offset": 6}, {"word": "毕业", "offset": 12}, {"word": "于", "offset": 18}, {"word": "中国", "offset": 21}, {"word": "科学", "offset": 27}, {"word": "学院", "offset": 30}, {"word": "科学院", "offset": 27}, {"word": "中国科学院", "offset": 21}, {"word": "计算", "offset": 36}, {"word": "计算所", "offset": 36}, {"word": "，", "offset": 45}, {"word": "后", "offset": 48}, {"word": "在", "offset": 51}, {"word": "日本", "offset": 54}, {"word": "京都", "offset": 60}, {"word": "大学", "offset": 66}, {"word": "日本京都大学", "offset": 54}, {"word": "深造", "offset": 72}]
[demo] Tagging
我是拖拉机学院手扶拖拉机专业的。不用多久，我就会升职加薪，当上CEO，走上人生巅峰。
[我:r, 是:v, 拖拉机:n, 学院:n, 手扶拖拉机:n, 专业:n, 的:uj, 。:x, 不用:v, 多久:m, ，:x, 我:r, 就:d, 会:v, 升职:v, 加薪:nr, ，:x, 当上:t, CEO:eng, ，:x, 走上:v, 人生:n, 巅峰:n, 。:x]
[demo] Keyword Extraction
我是拖拉机学院手扶拖拉机专业的。不用多久，我就会升职加薪，当上CEO，走上人生巅峰。
[{"word": "CEO", "offset": [93], "weight": 11.7392}, {"word": "升职", "offset": [72], "weight": 10.8562}, {"word": "加薪", "offset": [78], "weight": 10.6426}, {"word": "手扶拖拉机", "offset": [21], "weight": 10.0089}, {"word": "巅峰", "offset": [111], "weight": 9.49396}]

For more details, please see demo.

分词结果示例

MPSegment

Output:

我来到北京清华大学
我/来到/北京/清华大学

他来到了网易杭研大厦
他/来到/了/网易/杭/研/大厦

小明硕士毕业于中国科学院计算所，后在日本京都大学深造
小/明/硕士/毕业/于/中国科学院/计算所/，/后/在/日本京都大学/深造

HMMSegment

我来到北京清华大学
我来/到/北京/清华大学

他来到了网易杭研大厦
他来/到/了/网易/杭/研大厦

小明硕士毕业于中国科学院计算所，后在日本京都大学深造
小明/硕士/毕业于/中国/科学院/计算所/，/后/在/日/本/京/都/大/学/深/造

MixSegment

我来到北京清华大学
我/来到/北京/清华大学

他来到了网易杭研大厦
他/来到/了/网易/杭研/大厦

小明硕士毕业于中国科学院计算所，后在日本京都大学深造
小明/硕士/毕业/于/中国科学院/计算所/，/后/在/日本京都大学/深造

FullSegment

我来到北京清华大学
我/来到/北京/清华/清华大学/华大/大学

他来到了网易杭研大厦
他/来到/了/网易/杭/研/大厦

小明硕士毕业于中国科学院计算所，后在日本京都大学深造
小/明/硕士/毕业/于/中国/中国科学院/科学/科学院/学院/计算/计算所/，/后/在/日本/日本京都大学/京都/京都大学/大学/深造

QuerySegment

我来到北京清华大学
我/来到/北京/清华/清华大学/华大/大学

他来到了网易杭研大厦
他/来到/了/网易/杭研/大厦

小明硕士毕业于中国科学院计算所，后在日本京都大学深造
小明/硕士/毕业/于/中国/中国科学院/科学/科学院/学院/计算所/，/后/在/中国/中国科学院/科学/科学院/学院/日本/日本京都大学/京都/京都大学/大学/深造

以上依次是MP,HMM,Mix三种方法的效果。

可以看出效果最好的是Mix，也就是融合MP和HMM的切词算法。即可以准确切出词典已有的词，又可以切出像"杭研"这样的未登录词。

Full方法切出所有字典里的词语。

Query方法先使用Mix方法切词，对于切出来的较长的词再使用Full方法。

自定义用户词典

自定义词典示例请看dict/user.dict.utf8。

没有使用自定义用户词典时的结果:

令狐冲/是/云/计算/行业/的/专家

使用自定义用户词典时的结果:

令狐冲/是/云计算/行业/的/专家

关键词抽取

我是拖拉机学院手扶拖拉机专业的。不用多久，我就会升职加薪，当上CEO，走上人生巅峰。
["CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089", "巅峰:9.49396"]

For more details, please see demo.

词性标注

我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久，我就会升职加薪，当上总经理，出任CEO，迎娶白富美，走上人生巅峰。
["我:r", "是:v", "拖拉机:n", "学院:n", "手扶拖拉机:n", "专业:n", "的:uj", "。:x", "不用:v", "多久:m", "，:x", "我:r", "就:d", "会:v", "升职:v", "加薪:nr", "，:x", "当上:t", "CEO:eng", "，:x", "走上:v", "人生:n", "巅峰:n", "。:x"]

For more details, please see demo.

支持自定义词性。比如在(dict/user.dict.utf8)增加一行

蓝翔 nz

结果如下：

["我:r", "是:v", "蓝翔:nz", "技工:n", "拖拉机:n", "学院:n", "手扶拖拉机:n", "专业:n", "的:uj", "。:x", "不用:v", "多久:m", "，:x", "我:r", "就:d", "会:v", "升职:v", "加薪:nr", "，:x", "当:t", "上:f", "总经理:n", "，:x", "出任:v", "CEO:eng", "，:x", "迎娶:v", "白富美:x", "，:x", "走上:v", "人生:n", "巅峰:n", "。:x"]

其它词典资料分享

dict.367W.utf8 iLife(562193561 at qq.com)

应用

GoJieba go语言版本的结巴中文分词。
NodeJieba Node.js 版本的结巴中文分词。
simhash 中文文档的的相似度计算
exjieba Erlang 版本的结巴中文分词。
jiebaR R语言版本的结巴中文分词。
cjieba C语言版本的结巴分词。
jieba_rb Ruby 版本的结巴分词。
iosjieba iOS 版本的结巴分词。
SqlJieba MySQL 全文索引的结巴中文分词插件。
pg_jieba PostgreSQL 数据库的分词插件。
simple SQLite3 FTS5 数据库的分词插件。
gitbook-plugin-search-pro 支持中文搜索的 gitbook 插件。
ngx_http_cppjieba_module Nginx 分词插件。
cppjiebapy 由 jannson 开发的供 python 模块调用的项目 cppjiebapy, 相关讨论 cppjiebapy_discussion .
cppjieba-py 由 bung87 基于 pybind11 封装的 python 模块,使用体验上接近于原jieba。
KeywordServer 50行搭建一个中文关键词抽取服务。
cppjieba-server CppJieba HTTP 服务器。
phpjieba php版本的结巴分词扩展。
perl5-jieba Perl版本的结巴分词扩展。
jieba-dlang D 语言的结巴分词 Deimos Bindings。

README.md

CppJieba

简介

特性

用法

依赖软件

下载和编译

Demo

分词结果示例

自定义用户词典

关键词抽取

词性标注

其它词典资料分享

应用

性能评测

Sponsorship

Contributors

Code Contributors

README.md Unescape Escape

CppJieba

简介

特性

用法

依赖软件

下载和编译

Demo

分词结果示例

自定义用户词典

关键词抽取

词性标注

其它词典资料分享

应用

性能评测

Sponsorship

Contributors

Code Contributors

README.md