音乐流派分类模型是在计算机视觉(CV)领域的预训练模型基础上进行微调的,旨在对音频数据进行流派分类。在预训练阶段,该模型通过大规模计算机视觉任务的数据集学习了丰富的特征表示。通过迁移学习,这些学到的特征被应用于音乐流派分类任务,以提升模型在音频数据上的性能。在微调阶段,我们使用了包含16种音乐流派的音频数据集。这些音频样本首先被转换为频谱图,将时域音频信号转换为在时间和频率维度上的二维表示。频谱图表示捕捉了不同音频频率的时域演化,为模型提供了有关音频内容的丰富信息。通过微调,我们调整了预训练模型以满足音乐流派分类任务的需求。模型学会从频谱图中提取与音乐流派相关的特征,使其能够准确分类音频样本。这个过程使得模型能够识别和推断音乐的流派,如摇滚、古典、流行等。通过将计算机视觉领域的预训练模型与音频任务相结合,这种方法充分利用了知识的跨模态传递,展示了预训练模型在不同领域的适应性和有效性。
在线演示
https://www.modelscope.cn/studios/ccmusic-database/music-genre
使用
from modelscope import snapshot_download
model_dir = snapshot_download('ccmusic-database/music_genre')
维护
GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/ccmusic-database/music_genre.git
cd music_genre
训练结果
一个 VGG19_BN 模型的微调结果:
Loss curve | |
---|---|
Training and validation accuracy | |
Confusion matrix |
数据集
https://www.modelscope.cn/datasets/ccmusic-database/music_genre
镜像
https://huggingface.co/ccmusic-database/music_genre
评估
https://github.com/monetjoe/ccmusic_eval
引用
@dataset{zhaorui_liu_2021_5676893,
author = {Monan Zhou, Shenyang Xu, Zhaorui Liu, Zhaowen Wang, Feng Yu, Wei Li and Baoqiang Han},
title = {CCMusic: an Open and Diverse Database for Chinese and General Music Information Retrieval Research},
month = {mar},
year = {2024},
publisher = {HuggingFace},
version = {1.2},
url = {https://huggingface.co/ccmusic-database}
}
评论