AudioGPT 基于 LLM 的音频助手开源项目

匿名用户2023年05月03日

72阅读

所属分类Python、程序开发、多媒体处理

授权协议未知

作品详情

AudioGPT是一个借助大语言模型(LLM)处理音频的工具。

AudioGPT在收到用户请求时使用ChatGPT进行任务分析，根据语音基础模型中可用的功能描述选择模型，用选定的语音基础模型执行用户指令，并根据执行结果汇总响应。借助ChatGPT强大的语言能力和众多的语音基础模型，AudioGPT能够完成几乎所有语音领域的任务。

具体来说，AudioGPT运行过程可以分成4个阶段：模态转化、任务分析、模型分配和回复生成。

AudioGPT核心功能

生成音乐背景音效音频生成字幕文字生成音频文字生成音频并模拟声音根据图片生成音频对音频进行inpaint（局部屏蔽）根据音频和人脸照片合成视频检测音频中的事件，以及开始和结束时间单声道变双声道通过文本描述检测特定声音发生的时间抽取某种声音去除背景噪音多人混合声分离出单人声音语音翻译

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

点击空白处退出提示

您好 👋

我们能提供什么帮助？

向我们发送消息

常见问题、使用帮助、人工咨询等

使用微信扫一扫