PaddleSpeech 基于飞桨的语音开源模型库开源项目

我要开发同款
匿名用户2021年12月27日
92阅读
开发技术Python
所属分类人工智能、自然语言处理
授权协议Apache-2.0

作品详情

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

特性:本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括

易用性:安装门槛低,可使用 CLI 快速开始。对标SoTA:提供了高速、轻量级模型,且借鉴了最前沿的技术。基于规则的中文前端:我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。多种工业界以及学术界主流功能支持:典型音频任务:本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。主流模型及数据集:本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 模型列表。级联模型应用:作为传统语音任务的扩展,我们结合了自然语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。近期更新:2021.12.14:我们在HuggingFaceSpaces上的 ASR 以及 TTS Demos上线啦!2021.12.10:PaddleSpeechCLI上线!覆盖了声音分类、语音识别、语音翻译(英译中)以及语音合成。安装我们强烈建议用户在 Linux 环境下,3.7 以上版本的 python 上安装PaddleSpeech。目前为止,Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能,MacOSX、Windows 下暂不支持语音翻译功能。想了解具体安装细节,可以参考安装文档。

快速开始安装完成后,开发者可以通过命令行快速开始,改变 --input 可以尝试用自己的音频或文本测试。

声音分类

paddlespeechcls--inputinput.wav语音识别

paddlespeechasr--langzh--inputinput_16k.wav语音翻译 (EnglishtoChinese)

paddlespeechst--inputinput_16k.wav语音合成

paddlespeechtts--input"你好,欢迎使用百度飞桨深度学习框架!"--outputoutput.wav语音合成的webdemo已经集成进了 HuggingfaceSpaces.请参考: TTSDemo文本后处理

标点恢复paddlespeechtext--taskpunc--input今天的天气真不错啊你下午有空吗我想约你一起去吃饭更多命令行命令请参考 demos

Note:如果需要训练或者微调,请查看语音识别, 语音合成。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论