scseg Python中文分词开源项目

我要开发同款
匿名用户2013年08月22日
36阅读
开发技术Python
所属分类程序开发、中文分词库
授权协议BSD

作品详情

scseg中文分词,是基于mmseg的简单分词组件

Feature

支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别

Install

pipinstallscseg通过importscseg来引用

Algorithm

采用mmseg算法进行切分采用规则方式支持中文数字分词

功能1):分词scseg.seg_text方法

scseg.seg_text函数接受3个参数:text参数为需要分词的字符ext_dict_words为用户自定义的扩展字典use_combine代表是否需要合并处理

代码示例(全功能分词)

#encoding=utf-8importgeniusseg_list=scseg.seg_text(u'中国人民站起来了pinyin')print'\n'.join(seg_list)

功能2):面向索引的分词

scseg.seg_keywords为面向索引的切割方式其作用是枚举出所有可能的切割方式text参数为需要分词的字符

代码示例(全功能分词)

#encoding=utf-8importscsegseg_list=scseg.seg_keywords(u'中国人民站起来了pinyin')print'\n'.join(seg_list)
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论