ERes2Net 语种识别模型

ERes2Net模型结合全局特征和局部特征，从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号；全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。ERes2Net-Base是参数量较小的ERes2Net模型，可实现快速训练和推理。

模型简述

ERes2Net局部融合如下图黄色部分所示，使用Attentianal feature fusion阶梯式融合各分组特征来增强局部信息连接，获取更细粒度特征；全局融合如下图绿色部分所示，通过自底向上的全局特征融合来增强说话人信息。

更详细的信息见

ERes2Net论文：An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification
github项目地址：3D-Speaker

模型效果评估

在集外10s长的各语种识别准确率94%。

如何快速体验模型效果

在Notebook中体验

对于有开发需求的使用者，特别推荐您使用Notebook进行离线处理。先登录ModelScope账号，点击模型页面右上角的“在Notebook中打开”按钮出现对话框，首次使用会提示您关联阿里云账号，按提示操作即可。关联账号后可进入选择启动实例界面，选择计算资源，建立实例，待实例创建完成后进入开发环境，输入api调用实例。

from modelscope.pipelines import pipeline
lre_pipeline = pipeline(
    task='speech-language-recognition',
    model='damo/speech_eres2net_base_five_lre_8k',
    model_revision='v1.0.1'
)
example_wav = 'https://modelscope.cn/api/v1/models/damo/speech_eres2net_large_five_lre_8k/repo?Revision=master&FilePath=examples/example_lre_mand_8k.wav'
# 识别语种
result = lre_pipeline(example_wav)
print(result)

训练和测试自己的ERes2Net-Base语种模型

本项目已在3D-Speaker开源了训练、测试和推理代码，使用者可按下面方式下载安装使用：

git clone https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行ERes2Net语种识别样例

cd egs/3dspeaker/language-identification
# 变换模型结构ERes2Net
# 需要在run.sh中提前配置训练使用的GPU信息，默认是4卡
bash run.sh

ERes2Net-Base语种识别-中英粤日韩识别-8k

作品详情

ERes2Net 语种识别模型

模型简述

模型效果评估

如何快速体验模型效果

在Notebook中体验

训练和测试自己的ERes2Net-Base语种模型

相关论文以及引用信息

3D-Speaker 开发者社区钉钉群

重点城市程序员兼职推荐

重点岗位程序员兼职推荐