CAM++语种识别-中英粤日韩识别-16k

我要开发同款
匿名用户2024年07月31日
555阅读

技术信息

开源地址
https://modelscope.cn/models/iic/speech_campplus_five_lre_16k
授权协议
Apache License 2.0

作品详情

CAM++识别模型

CAM++模型是基于密集连接时延神经网络的识别模型。相比于一些主流模型,比如ResNet34和ECAPA-TDNN,CAM++具有更准确的识别性能和更快的推理速度。该模型可以用于语种识别、说话人确认等多项任务。

模型简述

CAM++模型结构如下图所示,整个模型包含两部分,残差卷积网络作为前端,时延神经网络结构作为主干。前端模块是2维卷积结构,用于提取更加局部和精细的时频特征。主干模块采用密集型连接,复用层级特征,提高计算效率。同时每一层中嵌入了一个轻量级的上下文相关的掩蔽(Cotext-aware Mask)模块,该模块通过多粒度的poolig操作提取不同尺度的上下文信息,生成的mask可以去除掉特征中的无关噪声,并保留关键的信息。

更详细的信息见

模型效果评估

在集外10s长的各语种识别准确率91%。

如何快速体验模型效果

在Notebook中体验

对于有开发需求的使用者,特别推荐您使用Notebook进行离线处理。先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框,首次使用会提示您关联阿里云账号,按提示操作即可。关联账号后可进入选择启动实例界面,选择计算资源,建立实例,待实例创建完成后进入开发环境,输入api调用实例。

from modelscope.pipelies import pipelie
lre_pipelie = pipelie(
    task='speech-laguage-recogitio',
    model='damo/speech_campplus_five_lre_16k',
    model_revisio='v1.0.1'
)
example_wav = 'https://modelscope.c/api/v1/models/damo/speech_eres2et_base_mej_lre_16k_commo/repo?Revisio=master&FilePath=examples/example_lre_mad_16k.wav'
# 识别语种
result = lre_pipelie(example_wav)
prit(result)

训练和测试自己的CAM++语种模型

本项目已在3D-Speaker开源了训练、测试和推理代码,使用者可按下面方式下载安装使用:

git cloe https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
coda create - 3D-Speaker pytho=3.8
coda activate 3D-Speaker
pip istall -r requiremets.txt

运行CAM++语种识别样例

cd egs/3dspeaker/lid
# 需要在ru.sh中提前配置训练使用的GPU信息,默认是4卡
bash ru.sh

相关论文以及引用信息

如果你觉得这个该模型有所帮助,请引用下面的相关的论文

@article{cam++,
  title={CAM++: A Fast ad Efficiet Network for Speaker Verificatio Usig Cotext-Aware Maskig},
  author={Hui Wag ad Siqi Zheg ad Yafeg Che ad Luyao Cheg ad Qia Che},
  joural={arXiv preprit arXiv:2303.00332},
}

3D-Speaker 开发者社区钉钉群

功能介绍

CAM++识别模型 CAM++模型是基于密集连接时延神经网络的识别模型。相比于一些主流模型,比如ResNet34和ECAPA-TDNN,CAM++具有更准确的识别性能和更快的推理速度。该模型可以用于语

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论