Expanded Groove MIDI Dataset (E-GMD)

Name: Expanded Groove MIDI Dataset (E-GMD)
Creator: Google
Published: 2020-12-02 02:11:04
License: 暂无描述

arXiv2020-12-02 更新2024-06-21 收录

下载链接：

https://g.co/magenta/e-gmd

下载链接

链接失效反馈

官方服务：

资源简介：

Expanded Groove MIDI Dataset (E-GMD) 是由Google团队创建的一个大型自动鼓点转录数据集，包含444小时的音频数据，涵盖43种不同的鼓组。该数据集首次包含了人类表演的速度注释，显著大于同类数据集。E-GMD主要用于优化分类器，以预测表达性动态（速度），并通过听觉测试证明其输出具有改进的感知质量。数据集的应用领域主要集中在鼓点转录技术，旨在提高转录的准确性和音乐表达的自然性。

Expanded Groove MIDI Dataset (E-GMD) is a large-scale automatic drum transcription dataset developed by the Google team. It contains 444 hours of audio data covering 43 distinct drum kits. This is the first dataset of its kind to include human-performed velocity annotations, and its scale is significantly larger than comparable existing datasets. E-GMD is mainly used to optimize classifiers for predicting expressive dynamics (velocity), and auditory tests have proven that its outputs have improved perceptual quality. The primary application domains of this dataset focus on drum transcription technology, aiming to improve transcription accuracy and the naturalness of musical expression.

提供机构：

Google

创建时间：

2020-04-01

搜集汇总

数据集介绍

构建方式

在自动鼓声转录领域，数据集的构建往往受限于人工标注的繁琐与规模限制。Expanded Groove MIDI Dataset (E-GMD) 的构建基于Groove MIDI Dataset (GMD)的扩展，后者包含人类鼓手在Roland TD-11电子鼓上录制的MIDI表演。E-GMD通过半自动化流程，在Roland TD-17鼓组上录制了43套鼓组音频，涵盖从电子到声学音色，每套鼓组均与原始MIDI文件在2毫秒内对齐。录制过程在数字音频工作站中实时进行，每套鼓组耗时约16小时，最终整合了444小时的音频数据，并保留了原始数据集的训练、测试与验证分割。

特点

E-GMD在自动鼓声转录数据集中具有显著特点。其规模较同类数据集大一个数量级，包含444小时音频与43套鼓组，首次提供了人类表演的速度标注，捕捉了表演中的表达性时序与动态。数据集涵盖25种鼓击类型，可灵活归约为7类或3类标准任务，支持多击分类与速度预测研究。此外，E-GMD基于Creative Commons Attribution 4.0许可公开，促进了跨模型比较与下游生成任务的应用。

使用方法

E-GMD主要用于训练与评估自动鼓声转录模型，尤其关注速度预测对感知质量的提升。研究者可基于数据集训练如OaF-Drums等模型，利用其速度标注头优化分类器，以生成更具表达力的转录输出。在评估时，数据集支持标准分类指标（如F-measure）与感知听测结合，通过对比合成音频与原始录音，验证模型在真实场景中的性能。此外，E-GMD的公开访问与标准化分割便于跨研究复现与比较，推动了转录技术向实际应用场景的迁移。

背景与挑战

背景概述

在自动鼓点转录（ADT）领域，数据集的规模与标注质量长期制约着模型性能的突破。2020年，Google研究团队推出了扩展Groove MIDI数据集（E-GMD），旨在解决现有数据在时长、鼓组多样性与动态表达标注上的不足。该数据集基于原始的Groove MIDI数据集，通过半自动化流程扩展至444小时音频，涵盖43种鼓组音色，并首次引入了人类演奏的力度（velocity）标注。E-GMD的核心研究问题聚焦于提升鼓点转录的感知质量，尤其在生成任务中，通过预测表达性动态参数来优化下游应用的输出效果。这一数据集的发布显著推动了ADT领域从单纯分类指标向感知质量评估的范式转变，为后续研究提供了关键的数据基础。

当前挑战

E-GMD所应对的领域挑战在于自动鼓点转录中感知质量与分类指标之间的脱节。传统ADT模型依赖准确率、F值等指标，但这些未能充分反映生成音频的听觉自然度，尤其是在表达性动态（如力度变化）的建模上存在局限。构建过程中的挑战则体现在数据采集与标注的复杂性上：一方面，真实鼓演奏的标注需耗费大量人力，且涉及版权与知识产权限制；另一方面，扩展数据时需确保新录制的43套鼓组音频与原始MIDI文件在2毫秒内精确对齐，同时处理录制错误导致的无效轨道。此外，数据集的独特序列数量有限（仅1059条），加剧了模型过拟合风险，迫使研究者开发如Shuffled mixup等新型数据增强策略以提升泛化能力。

常用场景

经典使用场景

在音乐信息检索领域，鼓点转录作为一项核心任务，旨在从音频信号中自动识别鼓击的时序与类型。Expanded Groove MIDI Dataset (E-GMD) 以其包含444小时音频和43套鼓组的庞大规模，成为训练和评估自动鼓点转录模型的经典资源。该数据集特别强调人类演奏的力度标注，使得研究者能够构建预测表达性动态的模型，从而在生成任务中提升听觉感知质量。其经典使用场景包括开发基于深度学习的转录系统，如OaF-Drums模型，该模型通过整合力度预测头，优化了鼓击时序、类型及力度的联合识别。

衍生相关工作

E-GMD 的推出催生了一系列相关研究工作，尤其在深度学习驱动的鼓点转录领域。基于该数据集的OaF-Drums模型，作为Onsets and Frames架构的适配版本，启发了后续对多乐器转录和联合时序-力度预测的探索。数据集的大规模特性也促进了数据增强策略的创新，如Shuffled mixup技术，有效缓解了过拟合问题。此外，它推动了跨数据集评估标准化，鼓励研究者开发更具泛化能力的模型，并在听觉质量评估方面设立了新基准，影响了如DrumTranscriptor等现有系统的改进方向。

数据集最近研究