five

e-gmd

收藏
Hugging Face2026-02-20 更新2026-02-21 收录
下载链接:
https://huggingface.co/datasets/schismaudio/e-gmd
下载链接
链接失效反馈
官方服务:
资源简介:
扩展的Groove MIDI数据集(E-GMD)是一个大规模的对齐MIDI和合成音频鼓表演录音集合,由Google Magenta创建。该数据集基于Groove MIDI数据集(GMD)中的1,150个MIDI表演,通过43种不同的商用鼓组使用VST渲染管道重新渲染,产生了约49,000个音频录音(1,150个表演×43个鼓组),提供了比原始GMD更大的音色多样性,同时保留了其精确的MIDI注释。E-GMD广泛用于自动鼓转录的研究,其中对不同鼓声音的泛化至关重要。数据集包含16kHz单声道WAV文件和标准MIDI文件,以及链接每个音频/MIDI对的CSV元数据文件。数据集分为训练集(约35,000个示例)、验证集(约8,600个示例)和测试集(约6,450个示例),遵循与GMD相同的基于鼓手的划分。E-GMD使用与GMD相同的9个标准鼓乐器类别,映射自Roland TD-11上的22个原始MIDI音高。数据集的主要限制包括所有音频均为VST渲染,鼓组多样性有限,以及16kHz的采样率可能限制高保真应用的使用。
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在电子鼓声学建模与鼓谱转录的研究领域中,Expanded Groove MIDI Dataset (E-GMD) 的构建体现了严谨的数据采集与处理流程。该数据集源自10位鼓手使用43套不同鼓组进行的演奏,共录制了1,059段独特表演,最终形成45,537对高质量的WAV音频与MIDI文件配对。音频以16位FLAC格式、44.1 kHz采样率录制,并经过标准化分割,划分为训练集、验证集和测试集,确保了数据在机器学习任务中的有效利用。此外,数据集还提供了预计算的梅尔频谱、击发目标及力度目标等特征,为深度学习方法提供了可直接输入的结构化表示。
使用方法
对于希望利用E-GMD进行鼓谱转录或相关音频分析的研究者,该数据集提供了灵活的使用途径。通过Hugging Face的datasets库,用户可以流式加载原始配置,直接获取FLAC音频和对应的MIDI文件,适用于需要自定义特征提取的流程。若追求效率,可直接加载预计算的特征配置,其中包含128维梅尔频谱、26维击发目标及力度目标,这些特征已对齐至相同时间轴,方便输入神经网络进行训练或评估。数据集遵循标准的训练、验证、测试划分,支持批量或流式处理,能够有效支撑监督学习模型在鼓事件检测、速度感知转录等任务上的性能验证与比较。
背景与挑战
背景概述
在音乐信息检索领域,鼓组转录技术旨在从音频信号中自动识别鼓类乐器的演奏时序与力度。Expanded Groove MIDI Dataset(E-GMD)由Google Magenta团队于2020年发布,作为Groove MIDI Dataset的扩展版本,该数据集汇集了10位鼓手使用43套不同电子鼓设备录制的1,059段表演,共计45,537对音频与MIDI数据。其核心研究问题聚焦于提升鼓组转录的感知质量,通过提供高精度、多风格的演奏标注,为基于深度学习的自动鼓谱生成模型奠定了数据基础,显著推动了计算音乐学与智能音乐制作的发展。
当前挑战
鼓组转录任务面临多重挑战:在领域问题层面,鼓声在音频中常呈现瞬态性与重叠性,不同鼓件间频谱特征相似度高,且演奏中的力度动态与细微时序变化难以准确捕捉,这要求模型具备强大的时序建模与细粒度分类能力。在数据集构建过程中,挑战主要源于数据采集与标注的复杂性,包括确保多位鼓手表演风格的一致性、统一不同电子鼓设备的信号规范,以及将原始演奏精确转换为包含26类鼓件音高与力度信息的MIDI标注,这些过程需耗费大量人力与计算资源以保障数据质量与多样性。
常用场景
经典使用场景
在音乐信息检索领域,E-GMD数据集为鼓声转录任务提供了标准化的评估基准。该数据集通过包含大量电子鼓演奏的音频与MIDI配对样本,支持研究者训练和验证自动鼓声转录模型。经典使用场景涉及利用其预计算的梅尔频谱特征和打击目标标签,开发深度神经网络以精确识别鼓击的时序、音高和力度,从而推动音乐自动分析技术的发展。
解决学术问题
E-GMD数据集有效解决了鼓声转录研究中数据稀缺和质量参差不齐的学术难题。它提供了大规模、高质量且标注一致的鼓声表演数据,涵盖了多种鼓组和演奏风格,使研究者能够系统探究鼓声的时序结构与动态表达。该数据集促进了转录算法在感知质量上的提升,为音乐生成、节奏分析和交互式音乐系统等研究奠定了可靠的数据基础。
实际应用
在实际应用层面,E-GMD数据集被广泛用于开发智能音乐制作工具和实时表演辅助系统。基于该数据集训练的模型能够自动生成鼓谱,辅助音乐教育中的节奏训练,或为电子音乐创作提供即时的鼓声编排建议。此外,其在游戏音效设计、自动配乐和虚拟鼓手等娱乐产业中,也展现出重要的实用价值,推动了音乐技术的商业化落地。
数据集最近研究
最新研究方向
在音乐信息检索领域,电子鼓声部转录技术正经历着从基础事件检测向精细化感知建模的演进。基于E-GMD这类包含丰富力度与节奏细节的数据集,当前研究聚焦于多任务学习框架的构建,旨在同步优化击打时序检测与动态力度估计的联合表征。随着神经音频合成技术的突破,该数据集被广泛用于端到端鼓声生成模型的训练,推动着可控节奏合成系统的实用化进程。在跨模态音乐理解的热潮中,研究者正探索如何利用其对齐的音频-MIDI配对数据,构建能够理解鼓点语义的预训练模型,为智能音乐制作工具提供核心支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作