CWSharp .NET 中文分词组件

我要开发同款
匿名用户2015年07月15日
49阅读
开发技术C#
所属分类程序开发、中文分词库
授权协议MIT

作品详情

CWSharp是.Net的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。

特性

支持多种分词器

StandardTokenizer

BigramTokenizer

StopwordTokenizer

可扩展的自定义分词接口

支持自定义词典

支持Lucene.Net分词

MIT授权协议

安装&编译

NuGet

nuget install CWSharp

PackageManagerConsole

PM> install-package CWSharp

算法

基于正向最大匹配的算法。介绍

词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍

TODO

HMM算法,识别未登记词语以及人名、地名识别

支持跨平台Windows、Linux

FAQ

词典-如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。

lucene.net插件-Lucene.Net分词接口

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论