VicWord PHP 分词库开源项目

我要开发同款
匿名用户2020年04月05日
57阅读
开发技术PHP
所属分类程序开发、中文分词库
授权协议Apache

作品详情

VicWord一个纯php的分词安装composerrequirelizhichao/word分词说明含有3种切分方法getWord 长度优先切分。最快getShortWord 细粒度切分。比最快慢一点点getAutoWord 自动切分(在相邻词做了递归)。效果最好可自定义词典,自己添加词语到词库,词库支持文本格式json和二级制格式igb 二进制格式词典小,加载快dict.igb含有175662个词,欢迎大家补充词语到 dict.txt ,格式(词语\tidf\t词性)idf获取方法百度搜索这个词语 Math.log(100000001/结果数量),如果你有更好的方法欢迎补充。词性[标点符号,名词,动词,形容词,区别词,代词,数词,量词,副词,介词,连词,助词,语气词,拟声词,叹词]取index;标点符号取0三种分词结果对比$fc=newVicWord('igb');$arr=$fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒//$arr是一个数组每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中]这里只值列出了词语$arr=$fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒$arr=$fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒//对比//qq的分词和百度的分词https://nlp.qq.com/semantic.cgi#page2https://ai.baidu.com/tech/nlp/lexical分词速度

机器阿里云 Intel(R)Xeon(R)Platinum8163CPU@2.50GHzgetWord 每秒140w字getShortWord 每秒138w字getAutoWord 每秒40w字测试文本在百度百科拷贝的一段5000字的文本

制作词库词库支持utf-8的任意字符词典大小不影响分词速度

只有一个方法VicDict->add(词语,词性=null)

//定义词典文件路径define('_VIC_WORD_DICT_PATH_',__DIR__.'/Data/dict.igb');require__DIR__.'/Lib/VicDict.php';//目前可支持igb和json两种词典库格式;igb需要安装igbinary扩展,igb文件小,加载快$dict=newVicDict('igb');//添加词语词库add(词语,词性)不分语言,可以是utf-8编码的任何字符$dict->add('中国','n');//保存词库$dict->save();
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论