中文分词器分词效果评估对比使用说明:如何建立开发环境?如果是使用Netbeans、IDEA,则直接打开项目如果是使用Eclipse、MyEclipse,则要执行导入操作推荐使用IDEA评估采用的测试文本位于data目录下,2533709行,共28374490个字符test-test.txt为未分词的文件,一行一个句子或短语,格式如下:迈向充满希望的新世纪一九九八年新年讲话附图片1张中共中央总书记国家主席江泽民一九九七年十二月三十一日12月31日总书记国家主席江泽民发表1998年新年讲话新华社记者兰红光摄standard-text.txt为人工分好词的文件,用于判断参与评估的分词器的分词结果是否正确,词和词之间以空格分隔,格式如下:迈向充满希望的新世纪一九九八年新年讲话附图片1张中共中央总书记国家主席江泽民一九九七年十二月三十一日12月31日总书记国家主席江泽民发表1998年新年讲话新华社记者兰红光摄注意:由于每个分词器的词典格式不一致,除了词典之外使用的其他模型的格式也不一致,所以我们评估对比时没有让所有分词器使用统一的词典和模型,测试的是各个分词器的默认行为运行org.apdplat.evaluation.Evaluator类可获得评估结果运行org.apdplat.evaluation.WordSegmenter类可对比不同分词器结果windows:./contrast.bat./evaluation.batlinux:chmod+xcontrast.sh&./contrast.shchmod+xevaluation.sh&./evaluation.sh最终评估结果文件位于report目录下:分词效果评估报告.txt注意:stanford分词器是吃内存的怪兽,运行的时候需要增加虚拟机参数-Xms3000m-Xmx3000m评估报告:1、word分词全切分算法:分词速度:51.79764字符/毫秒行数完美率:58.79%行数错误率:41.2%总的行数:2533709完美行数:1489713错误行数:1043996字数完美率:49.53%字数错误率:50.46%总的字数:28374490完美字数:14054431错误字数:143200592、AnsjBaseAnalysis基本分词:分词速度:1235.2847字符/毫秒行数完美率:55.36%行数错误率:44.63%总的行数:2533709完美行数:1402905错误行数:1130804字数完美率:48.18%字数错误率:51.81%总的字数:28374490完美字数:13672441错误字数:147020493、word分词双向最大最小匹配算法:分词速度:219.50127字符/毫秒行数完美率:55.31%行数错误率:44.68%总的行数:2533709完美行数:1401582错误行数:1132127字数完美率:45.83%字数错误率:54.16%总的字数:28374490完美字数:13005696错误字数:153687944、smartcn:分词速度:578.7523字符/毫秒行数完美率:55.29%行数错误率:44.7%总的行数:2533690完美行数:1401069错误行数:1132621字数完美率:48.03%字数错误率:51.96%总的字数:28374433完美字数:13628910错误字数:147455235、AnsjToAnalysis精准分词:分词速度:713.39294字符/毫秒行数完美率:54.72%行数错误率:45.27%总的行数:2533709完美行数:1386683错误行数:1147026字数完美率:44.99%字数错误率:55.0%总的字数:28374490完美字数:12768426错误字数:156060646、AnsjNlpAnalysisNLP分词:分词速度:195.31975字符/毫秒行数完美率:52.66%行数错误率:47.33%总的行数:2533709完美行数:1334314错误行数:1199395字数完美率:42.66%字数错误率:57.33%总的字数:28374490完美字数:12105808错误字数:162686827、word分词双向最大匹配算法:分词速度:346.91458字符/毫秒行数完美率:52.01%行数错误率:47.98%总的行数:2533709完美行数:1317801错误行数:1215908字数完美率:42.42%字数错误率:57.57%总的字数:28374490完美字数:12038414错误字数:163360768、FudanNLP:分词速度:121.48538字符/毫秒行数完美率:51.48%行数错误率:48.51%总的行数:2533709完美行数:1304371错误行数:1229338字数完美率:43.22%字数错误率:56.77%总的字数:28374490完美字数:12265742错误字数:161087489、JiebaSEARCH:分词速度:867.4031字符/毫秒行数完美率:50.84%行数错误率:49.15%总的行数:2533709完美行数:1288237错误行数:1245472字数完美率:41.54%字数错误率:58.45%总的字数:28374490完美字数:11789036错误字数:1658545410、Jcseg复杂模式:分词速度:394.75354字符/毫秒行数完美率:47.96%行数错误率:52.03%总的行数:2533709完美行数:1215171错误行数:1318538字数完美率:38.84%字数错误率:61.15%总的字数:28374490完美字数:11021588错误字数:1735290211、word分词双向最小匹配算法:分词速度:464.64523字符/毫秒行数完美率:46.76%行数错误率:53.23%总的行数:2533709完美行数:1185013错误行数:1348696字数完美率:36.52%字数错误率:63.47%总的字数:28374490完美字数:10365168错误字数:1800932212、word分词逆向最大匹配算法:分词速度:718.2688字符/毫秒行数完美率:46.72%行数错误率:53.27%总的行数:2533709完美行数:1183913错误行数:1349796字数完美率:36.67%字数错误率:63.32%总的字数:28374490完美字数:10407342错误字数:1796714813、word分词正向最大匹配算法:分词速度:718.0325字符/毫秒行数完美率:46.66%行数错误率:53.33%总的行数:2533709完美行数:1182351错误行数:1351358字数完美率:36.73%字数错误率:63.26%总的字数:28374490完美字数:10422209错误字数:1795228114、Jcseg简易模式:分词速度:944.65125字符/毫秒行数完美率:44.59%行数错误率:55.4%总的行数:2533709完美行数:1130000错误行数:1403709字数完美率:35.78%字数错误率:64.21%总的字数:28374490完美字数:10155059错误字数:1821943115、word分词逆向最小匹配算法:分词速度:1283.449字符/毫秒行数完美率:41.78%行数错误率:58.21%总的行数:2533709完美行数:1058606错误行数:1475103字数完美率:31.68%字数错误率:68.31%总的字数:28374490完美字数:8989797错误字数:1938469316、AnsjIndexAnalysis面向索引的分词:分词速度:720.5671字符/毫秒行数完美率:40.66%行数错误率:59.33%总的行数:2533709完美行数:1030336错误行数:1503373字数完美率:29.81%字数错误率:70.18%总的字数:28374490完美字数:8459997错误字数:1991449317、MMSeg4jComplexSeg:分词速度:1645.2795字符/毫秒行数完美率:38.81%行数错误率:61.18%总的行数:2533688完美行数:983517错误行数:1550171字数完美率:29.6%字数错误率:70.39%总的字数:28374428完美字数:8400089错误字数:1997433918、MMSeg4jSimpleSeg:分词速度:2163.3494字符/毫秒行数完美率:37.57%行数错误率:62.42%总的行数:2533688完美行数:951909错误行数:1581779字数完美率:28.45%字数错误率:71.54%总的字数:28374428完美字数:8074021错误字数:2030040719、IKAnalyzer智能切分:分词速度:322.74545字符/毫秒行数完美率:37.55%行数错误率:62.44%总的行数:2533686完美行数:951638错误行数:1582048字数完美率:27.97%字数错误率:72.02%总的字数:28374416完美字数:7938726错误字数:2043569020、word分词正向最小匹配算法:分词速度:1377.8706字符/毫秒行数完美率:36.85%行数错误率:63.14%总的行数:2533709完美行数:933769错误行数:1599940字数完美率:26.85%字数错误率:73.14%总的字数:28374490完美字数:7621334错误字数:2075315621、JiebaINDEX:分词速度:788.70605字符/毫秒行数完美率:36.02%行数错误率:63.97%总的行数:2533709完美行数:912771错误行数:1620938字数完美率:25.9%字数错误率:74.09%总的字数:28374490完美字数:7351689错误字数:2102280122、MMSeg4jMaxWordSeg:分词速度:1685.1461字符/毫秒行数完美率:34.27%行数错误率:65.72%总的行数:2533688完美行数:868440错误行数:1665248字数完美率:25.2%字数错误率:74.79%总的字数:28374428完美字数:7152898错误字数:2122153023、IKAnalyzer细粒度切分:分词速度:334.3131字符/毫秒行数完美率:18.87%行数错误率:81.12%总的行数:2533686完美行数:478176错误行数:2055510字数完美率:10.93%字数错误率:89.06%总的字数:28374416完美字数:3103178错误字数:25271238重点说明:关于分词速度,这个不是绝对的,每次测试都会有些差距,而完美率是固定的,所以按行数完美类排名上面的评估报告中没有包括Stanford分词器和Paoding分词器当前代码已经移除了Paoding分词器,因为Paoding分词器已经7年没有维护了当前代码升级Stanford分词器到3.5.2,速度慢的无法等待评估完成,仅用于交互式效果对比下面是之前代码对Paoding分词器2.0.4-beta和Stanford分词器3.3.1的评估数据StanfordBeijingUniversitysegmentation:分词速度:14.4612055字符/毫秒行数完美率:58.29%行数错误率:41.7%总的行数:2533709完美行数:1477034错误行数:1056675字数完美率:51.36%字数错误率:48.63%总的字数:28374490完美字数:14574120错误字数:13800370StanfordChineseTreebanksegmentation:分词速度:13.723294字符/毫秒行数完美率:55.45%行数错误率:44.54%总的行数:2533709完美行数:1404968错误行数:1128741字数完美率:47.27%字数错误率:52.72%总的字数:28374490完美字数:13414926错误字数:14959564PaodingMAX_WORD_LENGTH_MODE:分词速度:1343.1075字符/毫秒行数完美率:14.19%行数错误率:85.8%总的行数:2533158完美行数:359637错误行数:2173521字数完美率:7.72%字数错误率:92.27%总的字数:28373102完美字数:2191349错误字数:26181753PaodingMOST_WORDS_MODE:分词速度:1338.9246字符/毫秒行数完美率:11.6%行数错误率:88.39%总的行数:2533158完美行数:294011错误行数:2239147字数完美率:5.92%字数错误率:94.07%总的字数:28373102完美字数:1680261错误字数:26692841效果对比:以我爱楚离陌为例子:word分词器的分词结果:1、【全切分算法】我爱楚离陌2、【双向最大最小匹配算法】我爱楚离陌3、【正向最大匹配算法】我爱楚离陌4、【双向最大匹配算法】我爱楚离陌5、【逆向最大匹配算法】我爱楚离陌6、【正向最小匹配算法】我爱楚离陌7、【双向最小匹配算法】我爱楚离陌8、【逆向最小匹配算法】我爱楚离陌Stanford分词器的分词结果:1、【StanfordChineseTreebanksegmentation】我爱楚离陌2、【StanfordBeijingUniversitysegmentation】我爱楚离陌Ansj分词器的分词结果:1、【BaseAnalysis】我爱楚离陌2、【IndexAnalysis】我爱楚离陌3、【ToAnalysis】我爱楚离陌4、【NlpAnalysis】我爱楚离陌smartcn分词器的分词结果:1、【smartcn】我爱楚离陌FudanNLP分词器的分词结果:1、【FudanNLP】我爱楚离陌Jieba分词器的分词结果:1、【SEARCH】我爱楚离陌2、【INDEX】我爱楚离陌Jcseg分词器的分词结果:1、【简易模式】我爱楚离陌2、【复杂模式】我爱楚离陌MMSeg4j分词器的分词结果:1、【SimpleSeg】我爱楚离陌2、【ComplexSeg】我爱楚离陌3、【MaxWordSeg】我爱楚离陌IKAnalyzer分词器的分词结果:1、【智能切分】我爱楚离陌2、【细粒度切分】我爱楚离陌声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论