语音唤醒-dstcn-maxpooling-你好问问
本工程主要基于wekws进行构建,旨在搭建基于当下新训练框架(HF, modelscope)来实现更高效、快速的模型训练,微调及部署落地。
训练数据
此数据, MobvoiHotwords是从Mobvoi的商业智能扬声器中收集的唤醒词语料库。它包括关键词和非关键词话语。 对于关键词数据,收集包含“嗨小问”或“你好问问”的关键词话语。对于每个关键词,大约有36k个语料。所有关键词数据都来自788名采集者,年龄在3-65岁之间,与智能扬声器的距离分别(1米、3米和5米)。在采集过程中,背景中会播放不同声压级的不同噪音(典型的家庭环境噪音,如音乐和电视)。
运行环境
测试环境如下:
- >> cat /etc/issue | Ubuntu 16.04.7 LTS \n \l
- >> gcc --version | gcc (Ubuntu 7.5.0-3ubuntu1~16.04) 7.5.0
- >> g++ --version | g++ (Ubuntu 7.5.0-3ubuntu1~16.04) 7.5.0
- >> cmake --version | cmake version 3.20.2
cmake本地安装
sudo apt-get install libssl-dev
sudo apt-get install build-essential
#安装 cmake
wget https://github.com/Kitware/CMake/releases/download/v3.20.0/cmake-3.20.0.tar.gz
>> tar -zxvf cmake-3.20.0.tar.gz
>> cd cmake-3.20.0
>> ./bootstrap
>> make
>> sudo make install
推理测试
git clone https://github.com/chenyangMl/keyword-spot.git
cd keyword-spot/onnxruntime/
mkdir build && cd build
cmake ..
cmake --build . --target kws_main
#运行程序
cd build/bin
./kws_main 0 40 1 path_to_your_model.ort path_to_your_wave.wav
更多详细内容参考 keyword-spotting-inference
模型训练
xxx
模型转换
- pytorch2onnx: 将训练好的pytorch模型转换为onnx模型。onnx模型是常见的中间态模型,支持转换其他平台的模型(ncnn, tensorRT等各类推理引擎模型)。
- onnx2ort: 将onnx模型转换成ort模型,用于端侧部署。
详细内容参考唤醒词模型转换
参考&鸣谢
本工程主要是基于wekws进行构建的,特此感谢。
- 魔搭: 你好问问 唤醒词检测体验测试Demo
- https://modelscope.cn/models/iic/speechcharctckws_phone-wenwen/summary
评论