AudioGPT是一个借助大语言模型(LLM)处理音频的工具。
AudioGPT在收到用户请求时使用ChatGPT进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和众多的语音基础模型,AudioGPT能够完成几乎所有语音领域的任务。
具体来说,AudioGPT运行过程可以分成4个阶段:模态转化、任务分析、模型分配和回复生成。
AudioGPT核心功能
生成音乐背景音效音频生成字幕文字生成音频文字生成音频并模拟声音根据图片生成音频对音频进行inpaint(局部屏蔽)根据音频和人脸照片合成视频检测音频中的事件,以及开始和结束时间单声道变双声道通过文本描述检测特定声音发生的时间抽取某种声音去除背景噪音多人混合声分离出单人声音语音翻译
评论