SCWS 简易中文分词系统

我要开发同款
匿名用户2010年05月23日
35阅读
开发技术PHP
所属分类程序开发、中文分词库
授权协议未知

作品详情

SCWS是SimpleChineseWordsSegmentation的缩写,即简易中文分词系统。

这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。

SCWS在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在90%~95%之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。SCWS采用纯C代码开发,以Unix-LikeOS为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持GBK,UTF-8,BIG5等汉字编码,切词效率高。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论