genius中文分词_系统开发案例-程序员客栈

授权协议
BSD

Geius

Geius是一个开源的pytho中文分词组件，采用CRF(CoditioalRadomField)条件随机场算法。

Feature支持pytho2.x、pytho3.x以及pypy2.x。支持简单的piyi分词支持用户自定义break支持用户自定义合并词典支持词性标注SourceIstall安装git:1)ubutuordebiaapt-getistallgit2)fedoraorredhatyumistallgit下载代码：gitcloehttps://github.com/duahogyi/geius.git安装代码：pythosetup.pyistallPypiIstall执行命令：easy_istallgeius或者pipistallgeiusAlgorithm采用trie树进行合并词典查找基于wapiti实现条件随机场分词可以通过geius.loader.ResourceLoader来重载默认的字典功能1)：分词geius.seg_text方法geius.seg_text函数接受5个参数，其中text是必填参数:text第一个参数为需要分词的字符use_break代表对分词结构进行打断处理，默认值Trueuse_combie代表是否使用字典进行词合并，默认值Falseuse_taggig代表是否进行词性标注，默认值Trueuse_piyi_segmet代表是否对拼音进行分词处理，默认值True

代码示例(全功能分词)

#ecodig=utf-8importgeiustext=u"""昨天,我和施瓦布先生一起与部分企业家进行了交流,大家对中国经济当前、未来发展的态势、走势都十分关心。"""seg_list=geius.seg_text(text,use_combie=True,use_piyi_segmet=True,use_taggig=True,use_break=True)prit('\'.joi(['%s\t%s'%(word.text,word.taggig)forwordiseg_list]))功能2)：面向索引分词geius.seg_keywords方法专门为搜索引擎索引准备，保留歧义分割，其中text是必填参数。text第一个参数为需要分词的字符use_break代表对分词结构进行打断处理，默认值Trueuse_taggig代表是否进行词性标注，默认值Falseuse_piyi_segmet代表是否对拼音进行分词处理，默认值False由于合并操作与此方法有意义上的冲突，此方法并不提供合并功能；并且如果采用此方法做索引时候，检索时不推荐geius.seg_text使用use_combie=True参数。

代码示例

#ecodig=utf-8importgeiusseg_list=geius.seg_keywords(u'南京市长江大桥')prit('\'.joi([word.textforwordiseg_list]))功能3)：关键词提取geius.tag_extract方法专门为提取tag关键字准备，其中text是必填参数。text第一个参数为需要分词的字符use_break代表对分词结构进行打断处理，默认值Trueuse_combie代表是否使用字典进行词合并，默认值Falseuse_piyi_segmet代表是否对拼音进行分词处理，默认值False

代码示例

#ecodig=utf-8importgeiustag_list=geius.extract_tag(u'南京市长江大桥')prit('\'.joi(tag_list))其他说明4)：目前分词语料出自人民日报1998年1月份，所以对于新闻类文章分词较为准确。CRF分词效果很大程度上依赖于训练语料的类别以及覆盖度，若解决语料问题分词和标注效果还有很大的提升空间。

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、pyth...

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

genius中文分词

技术信息

作品详情

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐