中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner
本项工作的主要贡献:CINO (ChinesemINOrityPLM)基于多语言预训练模型XLM-R,在多种国内少数民族语言语料上进行了二次预训练。该模型提供了藏语、蒙语(回鹘体)、维吾尔语、哈萨克语(阿拉伯体)、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。为了便于评价包括CINO在内的各个多语言预训练模型性能,我们构建了基于维基百科的少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)。具体见少数民族语言分类数据集。通过实验证明,CINO在Wiki-Chinese-Minority(WCM)以及其他少数民族语言数据集:藏语新闻分类TibetanNewsClassificationCorpus(TNCC)、朝鲜语新闻分类KLUE-TC(YNAT)上获得了最好的效果。相关结果详见实验结果。该模型涵盖:Chinese,中文(zh)Tibetan,藏语(bo)Mongolian(Uighurform),蒙语(mn)Uyghur,维吾尔语(ug)Kazakh(Arabicform),哈萨克语(kk)Korean,朝鲜语(ko)Zhuang,壮语Cantonese,粤语(yue)点击空白处退出提示
评论