ERes2Net-Base语种识别-中英粤日韩识别-8k

我要开发同款
匿名用户2024年07月31日
29阅读
所属分类ai、ERes2Net、pytorch、中英粤日韩语种识别、ERes2Net-Base、speech language reco、audio
开源地址https://modelscope.cn/models/iic/speech_eres2net_base_five_lre_8k
授权协议Apache License 2.0

作品详情

ERes2Net 语种识别模型

ERes2Net模型结合全局特征和局部特征,从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。ERes2Net-Base是参数量较小的ERes2Net模型,可实现快速训练和推理。

模型简述

ERes2Net局部融合如下图黄色部分所示,使用Attentianal feature fusion阶梯式融合各分组特征来增强局部信息连接,获取更细粒度特征;全局融合如下图绿色部分所示,通过自底向上的全局特征融合来增强说话人信息。

更详细的信息见

模型效果评估

在集外10s长的各语种识别准确率94%。

如何快速体验模型效果

在Notebook中体验

对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框,首次使用会提示您关联阿里云账号,按提示操作即可。关联账号后可进入选择启动实例界面,选择计算资源,建立实例,待实例创建完成后进入开发环境,输入api调用实例。

from modelscope.pipelines import pipeline
lre_pipeline = pipeline(
    task='speech-language-recognition',
    model='damo/speech_eres2net_base_five_lre_8k',
    model_revision='v1.0.1'
)
example_wav = 'https://modelscope.cn/api/v1/models/damo/speech_eres2net_large_five_lre_8k/repo?Revision=master&FilePath=examples/example_lre_mand_8k.wav'
# 识别语种
result = lre_pipeline(example_wav)
print(result)

训练和测试自己的ERes2Net-Base语种模型

本项目已在3D-Speaker开源了训练、测试和推理代码,使用者可按下面方式下载安装使用:

git clone https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行ERes2Net语种识别样例

cd egs/3dspeaker/language-identification
# 变换模型结构ERes2Net
# 需要在run.sh中提前配置训练使用的GPU信息,默认是4卡
bash run.sh

相关论文以及引用信息

如果你觉得这个该模型有所帮助,请引用下面的相关的论文

@inproceedings{chen2023enhanced,
  title={An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification},
  author={Chen, Yafeng and Zheng, Siqi and Wang, Hui and Cheng, Luyao and Chen, Qian and Qi, Jiajun},
  year={2023},
  booktitle={INTERSPEECH}
}

3D-Speaker 开发者社区钉钉群

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论