MMS AI 语音识别大模型开源项目

我要开发同款
匿名用户2023年05月23日
50阅读
开发技术Python
所属分类LLM(大语言模型)、人工智能
授权协议CC-BY-NC 4.0

作品详情

MassivelyMultilingualSpeech(MMS)是由Meta开源的一个AI语音识别模型。支持1107种语言的语音转文本和文本转语音,以及4000多种语言的语言识别。

MMS项目将支持的语言数量增加了10-40倍,具体取决于任务。主要成分是一个新的数据集,该数据集基于对公开宗教文本的阅读,并有效地利用了自我监督学习。

项目团队构建了涵盖1406种语言的预训练wav2vec2.0模型、1107种语言的单一多语言自动语音识别模型、相同数量语言的语音合成模型,以及4017种语言的语言识别模型。实验表明,该多语言语音识别模型在FLEURS基准测试的54种语言上将Whisper的单词错误率降低了一半以上,同时在一小部分标记数据上进行了训练。

关于MMS所涵盖的语言的概述,可查看此处。

预训练模型ModelLinkMMS-300MdownloadMMS-1Bdownload可以在此处找到微调预训练模型的示例命令。

微调模型ASRModelLanguagesDatasetModelSupportedlanguagesMMS-1B:FL102102FLEURSdownloaddownloadMMS-1B:L11071107MMS-labdownloaddownloadMMS-1B-all1162MMS-lab+FLEURS+CV+VP+MLSdownloaddownloadTTS下载1107种语言的isocodes 列表。找到目标语言的isocode并下载checkpoint。每个文件夹包含3个文件:G_100000.pth、config.json、vocab.txt。#Examples:wgethttps://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz#English(eng)wgethttps://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz#NorthAzerbaijani(azj-script_latin)LID#LanguagesDatasetModelDictionarySupportedlanguages126FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload256FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload512FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload1024FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload2048FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload4017FLEURS+VL+MMS-lab-U+MMS-unlabdownloaddownloaddownload
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论