Simple tokenizer 支持中文和拼音搜索的 SQLite fts5 插件开源项目

我要开发同款
匿名用户2023年04月12日
102阅读
开发技术C/C++
所属分类程序开发、中文分词库
授权协议MIT

作品详情

simple是一个支持中文和拼音的 sqlite3fts5 拓展。它完整提供了 微信移动端的全文检索多音字问题解决方案 一文中的方案四,非常简单和高效地支持中文及拼音的搜索。

实现相关介绍:https://www.wangfenjin.com/posts/simple-tokenizer/

在此基础上,还支持通过 cppjieba 实现更精准的词组匹配,介绍文章见 https://www.wangfenjin.com/posts/simple-jieba-tokenizer/

功能

simpletokenizer支持中文和拼音的分词,并且可通过开关控制是否需要支持拼音simple_query()函数实现自动组装matchquery的功能,用户不用学习fts5query的语法simple_highlight()实现连续高亮match的词汇,与sqlite自带的highlight类似,但是simple_highlight实现了连续match的词汇分到同一组的逻辑,理论上用户更需要这样simple_highlight_pos()实现返回match的词汇位置,用户可以自行决定怎么使用simple_snippet()实现截取match片段的功能,与sqlite自带的snippet功能类似,同样是增强连续match的词汇分到同一组的逻辑jieba_query()实现jieba分词的效果,在索引不变的情况下,可以实现更精准的匹配。可以通过 -DSIMPLE_WITH_JIEBA=OFF 关掉结巴分词的功能 #35jieba_dict()指定dict的目录,只需要调用一次,需要在调用jieba_query()之前指定。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论