语音唤醒-dstcn-maxpooling-你好问问

本工程主要基于wekws进行构建，旨在搭建基于当下新训练框架(HF, modelscope)来实现更高效、快速的模型训练，微调及部署落地。

训练数据

此数据, MobvoiHotwords是从Mobvoi的商业智能扬声器中收集的唤醒词语料库。它包括关键词和非关键词话语。对于关键词数据，收集包含“嗨小问”或“你好问问”的关键词话语。对于每个关键词，大约有36k个语料。所有关键词数据都来自788名采集者，年龄在3-65岁之间，与智能扬声器的距离分别（1米、3米和5米）。在采集过程中，背景中会播放不同声压级的不同噪音（典型的家庭环境噪音，如音乐和电视）。

运行环境

测试环境如下:

>> cat /etc/issue | Ubuntu 16.04.7 LTS \n \l
>> gcc --version | gcc (Ubuntu 7.5.0-3ubuntu1~16.04) 7.5.0
>> g++ --version | g++ (Ubuntu 7.5.0-3ubuntu1~16.04) 7.5.0
>> cmake --version | cmake version 3.20.2

cmake本地安装

sudo apt-get install libssl-dev
sudo apt-get install build-essential

#安装 cmake
wget https://github.com/Kitware/CMake/releases/download/v3.20.0/cmake-3.20.0.tar.gz

>> tar -zxvf cmake-3.20.0.tar.gz
>> cd cmake-3.20.0
>> ./bootstrap
>> make
>> sudo make install

推理测试

git clone https://github.com/chenyangMl/keyword-spot.git
cd keyword-spot/onnxruntime/
mkdir build && cd build 
cmake .. 
cmake --build . --target kws_main

#运行程序
cd build/bin
./kws_main 0 40 1 path_to_your_model.ort path_to_your_wave.wav

更多详细内容参考 keyword-spotting-inference

模型训练

xxx

模型转换

pytorch2onnx: 将训练好的pytorch模型转换为onnx模型。onnx模型是常见的中间态模型，支持转换其他平台的模型(ncnn, tensorRT等各类推理引擎模型)。
onnx2ort: 将onnx模型转换成ort模型，用于端侧部署。

详细内容参考唤醒词模型转换

参考＆鸣谢

本工程主要是基于wekws进行构建的，特此感谢。

魔搭: 你好问问唤醒词检测体验测试Demo
https://modelscope.cn/models/iic/speechcharctckws_phone-wenwen/summary

语音唤醒-dstcn-maxpooling-你好问问

作品详情

语音唤醒-dstcn-maxpooling-你好问问

训练数据

运行环境

推理测试

模型训练

模型转换

参考＆鸣谢

重点城市程序员兼职推荐

重点岗位程序员兼职推荐