scseg中文分词,是基于mmseg的简单分词组件
Feature
支持pinyin分词支持用户自定义词典支持单位合并支持汉字数字识别Install
pipinstallscseg通过importscseg来引用Algorithm
采用mmseg算法进行切分采用规则方式支持中文数字分词功能1):分词scseg.seg_text方法
scseg.seg_text函数接受3个参数:text参数为需要分词的字符ext_dict_words为用户自定义的扩展字典use_combine代表是否需要合并处理代码示例(全功能分词)
#encoding=utf-8importgeniusseg_list=scseg.seg_text(u'中国人民站起来了pinyin')print'\n'.join(seg_list)功能2):面向索引的分词
scseg.seg_keywords为面向索引的切割方式其作用是枚举出所有可能的切割方式text参数为需要分词的字符代码示例(全功能分词)
#encoding=utf-8importscsegseg_list=scseg.seg_keywords(u'中国人民站起来了pinyin')print'\n'.join(seg_list)
评论