TTS定制语音模型训练

我要开发同款
广州快链网络2023年12月31日
116阅读
开发技术python
所属分类人工智能

作品详情

基于FastPitch+Bert模型从0到1训练出来的带有感情专属tts模型
整个模型训练流程
1.修改默认nemo的fastpitch模型,加上bert特征
2.预处理需要训练的语音数据,视频分离出音频数据,转换为采样率22050的wav文件,通过其他模型切割为15秒内的文件
3.通过阿里语音转文本模型对进行标注,将所有文件转换为nemo的训练集结构
4.训练fastpitch模型,4090训练10小时音频数据集大概300epoch
5.提取fastpitch训练结果,对预训练的HIFIGAN模型进行微调,大概训练300epoch
6.编写合成语音脚本,生成结果,具体结果看附件,
训练合成结果试听http://file.finelink.ltd/dev/demo.wav
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论