stemgmd

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/schismaudio/stemgmd

下载链接

链接失效反馈

官方服务：

资源简介：

StemGMD 是一个大规模多套鼓组数据集，提供了1,224小时的独立乐器鼓音轨及对齐的MIDI注释。该数据集由Ferroni等人（2023年）创建，基于Groove MIDI数据集（GMD）中的1,150个MIDI演奏，通过10套专业原声鼓组的高质量样本库进行渲染。与E-GMD（提供单一混合鼓音频）不同，StemGMD提供独立的乐器音轨——底鼓、军鼓、踩镲、通鼓和镲片均作为单独的音频文件渲染。这使得StemGMD在鼓转录和鼓源分离研究中具有独特价值，能够为模型提供干净、乐器级别的监督学习数据。数据集包含训练、验证和测试三个分割，每个分割包含约800、200和150个演奏，每个演奏通过10套鼓组渲染，总计约8,000、2,000和1,500个录音。音频格式为44.1kHz的WAV文件，每个鼓组渲染包含多达9个音轨（8个乐器音轨和1个混合音轨）。数据集还提供了详细的目录结构、数据字段描述和使用示例。

创建时间：

2026-02-19

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，构建高质量、大规模的数据集对于推动鼓转录与音源分离技术至关重要。StemGMD数据集以Groove MIDI Dataset（GMD）为基础，选取了1,150段由专业鼓手在Roland TD-11电子鼓上录制的MIDI演奏数据。通过精心设计的渲染流程，这些MIDI数据被导入10套不同的专业原声鼓音色库，分别生成了包括底鼓、军鼓、踩镲、通鼓和镲片在内的独立乐器音轨，以及对应的混合音频。所有音频均以44.1kHz的采样率渲染，确保了高频细节的完整保留，且每个音轨都与原始MIDI标注在时间上精确对齐，从而形成了一个包含1,224小时音频、结构清晰的多套鼓数据集。

特点

StemGMD数据集的核心特点在于其提供了乐器级别的孤立音轨，这为鼓转录和音源分离任务提供了前所未有的监督信号。数据集不仅包含了每套鼓的混合音频，更将底鼓、军鼓等八个鼓组部件分别渲染为独立的WAV文件，使得研究者能够直接获取纯净的乐器级数据。此外，通过十套音色各异的原声鼓音色库，数据集涵盖了从明亮到暗淡、从紧凑到开放等多种音色特征，极大地丰富了数据的声学多样性。这种多套鼓、多音轨的设计，使得模型能够学习到更具泛化能力的声学表示，克服了单一音色或混合音频带来的局限性。

使用方法

为有效利用StemGMD数据集，研究者可通过Hugging Face Hub下载完整的约1.13TB数据或进行流式访问。数据集按照鼓手和演奏会话进行层级化组织，每个演奏目录下包含`kit_00`至`kit_09`十个鼓组文件夹，以及对应的MIDI标注文件。使用时可借助`soundfile`等库加载特定鼓组的孤立音轨进行音源分离模型训练，或结合`pretty_midi`解析MIDI文件获取精确的击打时间、音高和力度信息，用于鼓转录任务的监督学习。数据集的训练、验证和测试划分遵循GMD的鼓手非重叠原则，确保了评估的公正性，方便研究者进行模型训练与性能验证。

背景与挑战

背景概述

在音乐信息检索领域，鼓转录与源分离任务长期面临高质量标注数据的稀缺。2023年，由Ferroni等人创建的StemGMD数据集应运而生，旨在为相关研究提供大规模、多音色的鼓音频资源。该数据集基于Groove MIDI Dataset的1,150段MIDI演奏，通过10套专业原声鼓音色库进行渲染，生成长达1,224小时的独立乐器音轨及对齐的MIDI标注。其核心研究问题聚焦于提升鼓转录模型的泛化能力与源分离精度，通过提供纯净的乐器级监督数据，显著推动了自动鼓转录与鼓声源分离技术的发展。

当前挑战

StemGMD数据集致力于解决鼓转录与源分离领域的关键挑战，即模型在复杂混音环境下对多乐器鼓声的精确识别与分离。然而，数据集构建过程亦面临多重困难：其一，音频完全由样本库合成，缺乏真实录音中的环境混响、麦克风串音等自然声学特性；其二，样本库渲染方式限制了鼓声的连续音色变化，难以完全模拟真实击鼓的动态响应；其三，数据集规模庞大，未压缩状态达1.13TB，对存储与计算资源提出了较高要求。

常用场景

经典使用场景

在音乐信息检索领域，自动鼓转录技术旨在从音频信号中识别鼓击的时序、音高和力度。StemGMD数据集以其大规模、多套鼓组和分离的乐器音轨特性，成为该领域模型训练与评估的经典资源。研究者利用其精确对齐的MIDI标注和分离的鼓乐器音轨，能够训练深度学习模型进行鼓击检测、乐器分类和时序分析，尤其在监督学习框架下，模型能够从清晰的乐器级监督信号中学习鼓声的声学特征与模式。

解决学术问题

StemGMD有效解决了自动鼓转录研究中因数据稀缺和标注不精确带来的挑战。传统数据集往往缺乏分离的乐器音轨或多样化的鼓组音色，限制了模型对复杂鼓声混合的解析能力。该数据集通过提供超过一千小时的分离鼓乐器音轨及对齐的MIDI标注，为模型提供了乐器级别的监督信号，使得研究者能够深入探索鼓声源分离、多乐器识别以及跨鼓组音色泛化等核心问题，显著提升了转录模型的准确性与鲁棒性。

衍生相关工作

StemGMD自发布以来，已衍生出多项重要的研究工作，推动了自动鼓转录与音乐音频处理领域的进展。例如，研究者利用其多套鼓组数据开发了能够泛化至不同鼓组音色的转录模型，提升了模型在实际场景中的适用性。同时，基于其分离音轨特性，一些工作专注于鼓声源分离算法的优化，实现了更精确的乐器提取。这些研究不仅验证了数据集的价值，也为后续更复杂的多乐器音乐分析任务奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集