ideaseg 基于 NLP 的中文分词器开源项目

我要开发同款
匿名用户2023年01月07日
110阅读
开发技术Java
所属分类程序开发、中文分词库
授权协议Apache

作品详情

ideaseg 是一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器,包含了最新的模型数据,同时移除了HanLP所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

HanLP 相比其他诸如 IK、jcseg 等分词器而言,在分词的准确率上有巨大的提升,但速度上有所牺牲。通过对 HanLP 进行优化配置,ideaseg 在准确度和分词速度上取得了最佳的平衡。

与其他基于 HanLP 的插件相比,ideaseg 同步了最新 HanLP 的代码和数据,去除了无法商用的相关内容;实现了自动配置;包含了模型数据,无需自行下载,使用简单方便。

ideaseg 提供三个模块包括:

core ~核心分词器模块elasticsearch ~ElasticSearch的ideaseg分词插件(最高支持7.10.2版本)opensearch ~OpenSearch的ideaseg分词插件(默认版本2.4.1)

 

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论