e-gmd

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/schism-audio/e-gmd

下载链接

链接失效反馈

官方服务：

资源简介：

Expanded Groove MIDI Dataset (E-GMD) 是一个大型数据集，包含人类鼓演奏的录音，并配有MIDI标注。该数据集旨在支持鼓转录、音乐信息检索和音频分类等任务，特别是用于提升鼓转录的感知质量。数据内容涵盖来自43个不同鼓套件的音频，总时长为444.5小时。数据集包含45,537个序列，对应1,059个独特的演奏序列，并按照原始Groove MIDI Dataset的划分，分为训练集（35,217个序列，341.4小时）、测试集（5,289个序列，50.9小时）和验证集（5,031个序列，52.2小时）。每个样本包括一个音频文件（WAV格式）和一个配对的MIDI文件，其中MIDI文件提供了鼓演奏的符号化标注。元数据文件记录了音频路径、MIDI路径、原始文件名以及数据划分（split）等信息。数据集以Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布，可通过Hugging Face Hub访问，并兼容AudioFolder格式，便于使用Hugging Face datasets库加载。

The Expanded Groove MIDI Dataset (E-GMD) is a large-scale dataset containing recordings of human drum performances with MIDI annotations. It is designed to support tasks such as drum transcription, music information retrieval, and audio classification, particularly for improving the perceptual quality of drum transcription. The dataset covers audio from 43 different drum kits, with a total duration of 444.5 hours. It includes 45,537 sequences corresponding to 1,059 unique performance sequences, and is divided according to the original Groove MIDI Dataset into training set (35,217 sequences, 341.4 hours), test set (5,289 sequences, 50.9 hours), and validation set (5,031 sequences, 52.2 hours). Each sample consists of an audio file (in WAV format) and a paired MIDI file, where the MIDI file provides symbolic annotations of the drum performance. Metadata files record audio paths, MIDI paths, original filenames, and data splits. The dataset is released under the Creative Commons Attribution 4.0 International (CC BY 4.0) license, accessible via the Hugging Face Hub, and compatible with the AudioFolder format for easy loading with the Hugging Face datasets library.

创建时间：

2026-05-19

原始信息汇总

数据集名称

Expanded Groove MIDI Dataset (E-GMD)

许可协议

Creative Commons Attribution 4.0 International (CC BY 4.0)

任务类别

音频分类

数据集规模

10,000 < n < 100,000

数据集简介

E-GMD 是一个大型人类鼓点表演数据集，包含带有 MIDI 标注的音频录音。它包含来自 43 个鼓组的 444.5 小时音频，并与原始 Groove MIDI 数据集保持相同的训练/验证/测试集划分。

数据划分

划分	唯一序列数	总序列数	时长
训练集	819	35,217	341.4 小时
测试集	123	5,289	50.9 小时
验证集	117	5,031	52.2 小时
总计	1,059	45,537	444.5 小时

数据存储结构

音频与 MIDI 文件按划分和鼓组目录组织：

audio/{split}/{kit_slug}/{original_drummer/session/path}.wav
midi/{split}/{kit_slug}/{original_drummer/session/path}.midi
元数据文件：metadata.csv、metadata/{split}.csv、metadata/all.csv、e-gmd-v1.0.0.csv

元数据字段

元数据文件中包含以下路径列：

file_name：相对于划分文件夹的音频路径
audio_path：相对于仓库根目录的音频路径
midi_path：相对于仓库根目录的配对 MIDI 路径
original_audio_filename：原始存档中的音频路径
original_midi_filename：原始存档中的 MIDI 路径

加载方式

可通过 datasets 库加载，支持流式读取： python from datasets import load_dataset ds = load_dataset("schism-audio/e-gmd", split="train", streaming=True)

版本与来源

版本：1.0.0
原始完整存档 SHA256：7d9a264fb4c9eabd9fec09d5f8e333192f529b1a1b845d170279a977ac436053
官方 Magenta 页面：https://magenta.tensorflow.org/datasets/e-gmd
Zenodo 记录：https://zenodo.org/records/4300943

引用信息

使用本数据集时，请引用原始 E-GMD 论文并指定版本 1.0.0：

@misc{callender2020improving, title={Improving Perceptual Quality of Drum Transcription with the Expanded Groove MIDI Dataset}, author={Lee Callender and Curtis Hawthorne and Jesse Engel}, year={2020}, eprint={2004.00188}, archivePrefix={arXiv}, primaryClass={cs.SD} }

搜集汇总

数据集介绍

构建方式

Expanded Groove MIDI Dataset（E-GMD）是Google团队在原始Groove MIDI数据集基础上进行大规模扩展的产物，其构建过程聚焦于提升数据规模与多样性。数据集收录了来自43套不同鼓组、涵盖多位鼓手演奏的音频与MIDI标注数据，总时长达到444.5小时，包含45,537段演奏序列。为了确保数据组织的高效性与可访问性，该数据集在Hugging Face Hub上采用了分片存储策略，将文件按照训练、验证、测试三个子集以及鼓组标识进行目录划分，音频文件与对应的MIDI文件分别存放于audio和midi文件夹下，并通过元数据文件建立索引关联，从而保留了原始演奏者与演奏会话的完整路径信息。

特点

E-GMD数据集的核心特点在于其大规模、高质量的标注数据与严谨的划分方案。全部音频均配有精准的MIDI标注，为自动鼓转录任务提供了理想的训练与评估基准。数据集沿用了原Groove数据集的官方切分，其中训练集包含35,217段序列（341.4小时），测试集与验证集分别有5,289段与5,031段序列，保证了实验的可复现性。此外，E-GMD采用AudioFolder格式组织，元数据中不仅包含音频文件名与路径，还提供了MIDI路径、原始归档路径等丰富信息，极大地方便了研究者对音频与符号数据的联合利用。

使用方法

加载E-GMD数据集十分便捷，通过Hugging Face的datasets库即可实现流式读取。用户首先使用load_dataset函数指定数据集标识符'schism-audio/e-gmd'，并可通过split参数选择train、test或validation子集。在流式模式下，每个样本以一个字典形式返回，其中包含audio字段（音频数据及其采样率）和midi_path字段（对应MIDI文件的相对路径）。研究者还可以利用metadata.csv或metadata目录下的子集CSV文件，直接通过文件路径访问音频与MIDI的完整配对数据，从而灵活地构建适用于鼓转录、音乐信息检索等下游任务的输入流水线。

背景与挑战

背景概述

在音乐信息检索领域，自动鼓转录作为一项核心任务，旨在从音频信号中精确提取出打击乐器的演奏事件，其研究对于音乐分析、交互式创作及音乐教育具有深远意义。2020年，由Lee Callender、Curtis Hawthorne和Jesse Engel等研究人员代表Google Magenta团队发布的Expanded Groove MIDI Dataset（E-GMD），是此前Groove MIDI Dataset的扩展与深化。该数据集包含来自43套鼓组的444.5小时人类鼓演奏音频，并附有逐音符的MIDI标注，总计45,537个演奏序列，划分为训练、验证和测试集。E-GMD的推出极大地推动了鼓转录模型的鲁棒性和感知质量提升，为跨鼓组泛化研究提供了标准化基准，成为该领域内具有里程碑意义的数据资源。

当前挑战

自动鼓转录所面临的领域挑战在于，真实世界中的鼓声呈现高度多样性，涵盖不同鼓组配置、演奏风格、录音条件和混音手法，导致音色差异显著，传统模型难以实现稳健的跨域泛化。E-GMD通过大规模、多鼓组的数据收集，致力于缓解这一难题，但构建过程中亦遭遇重重困难：首先，需协调来自43套鼓组的录制，确保音频与MIDI标注的精确同步，工作量庞大且易引入对齐误差；其次，数据存储与分发面临技术瓶颈，部分会话文件夹包含超10,000个文件，超出了Hugging Face Hub的单文件夹容量限制，不得不重新设计目录结构以适配平台约束，同时保留了原始文件命名和演奏者信息以确保溯源一致性。

常用场景

经典使用场景

E-GMD（Expanded Groove MIDI Dataset）是音乐信息检索领域内用于自动鼓转录任务的标志性数据集。其核心用途在于提供大规模、高质量的人声鼓演奏音频与精准MIDI标注的配对数据，使研究者能够训练深度神经网络模型，将原始鼓音频信号高效、准确地映射为符号化的打击乐音符序列。凭借其涵盖43套鼓组、总计超过444小时音频的丰富多样性，该数据集成为开发、评估和对比各类鼓转录算法不可或缺的基准资源。

实际应用

在实际应用中，E-GMD训练出的鼓转录模型被广泛整合至数字音频工作站和音乐制作软件中，实现了从真实鼓录音到MIDI乐谱的自动转换，极大地简化了音乐创编与后期编辑的流程。此外，该数据集支撑了智能音乐教学系统的开发，使系统能够实时分析用户鼓演奏的准确性并提供反馈；同时也在游戏娱乐、虚拟现实交互等场景中，助力实现基于真实演奏数据驱动的高保真鼓声合成与节奏游戏内容生成。

衍生相关工作

E-GMD的发布催生了一系列衍生学术工作。其中最具代表性的是Callender等人提出的基于该数据集的感知质量优化框架，证明了大规模增强数据对提升鼓转录主观听感的重要性。后续研究围绕该数据集展开了对抗性域适应、半监督学习、以及结合Transformer架构的端到端鼓转录方法探索。此外，E-GMD还被用作多任务学习、跨数据集迁移学习以及音乐音频时间戳对齐等前沿课题的标准评估平台，持续推动着打击乐信息处理技术向更深层次演进。

以上内容由遇见数据集搜集并总结生成