基于深度学习的文本驱动生成数字人系统,包含语音合成(自动音频标注、自定义语料训练、多音字和特殊字符识别)、文本驱动图像人物肢体动作、语音驱动人物唇形和肢体动作(音频驱动图像\视频唇形和肢体动作)。使用到的技术:语音合成算法相关(TTS、Paddlespeech、Spleeter、Whisper)、音频驱动人物唇形和肢体动作(MuseTalk、SadTalker、Video-Retalking、Audio2photoreal、Vlogger)、文本驱动人物肢体动作(MuseV)。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论