five

groove-midi-dataset

收藏
Hugging Face2026-02-21 更新2026-02-22 收录
下载链接:
https://huggingface.co/datasets/schismaudio/groove-midi-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Groove MIDI数据集(GMD)是由Google Magenta创建的一个包含13.6小时对齐的MIDI和合成音频录音的集合,记录了10位鼓手(80%以上为专业鼓手)的演奏。数据集包含1,150个MIDI文件,覆盖了18种音乐风格的超过22,000小节。每段表演均通过Roland TD-11电子鼓录制,捕捉了包含力度和精确时间的表现力MIDI数据以及合成音频输出。该数据集广泛应用于鼓转录、律动建模、人性化和节奏生成等研究领域。数据集结构包括音频和MIDI文件,以及鼓手ID、音乐风格、节奏、时间签名等元数据。数据集分为训练集、验证集和测试集,分别包含约800、200和150个样本。数据集使用CC-BY 4.0许可证发布。
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在音乐信息检索领域,Groove MIDI 数据集(GMD)的构建体现了对鼓点演奏表达的精细捕捉。该数据集由谷歌 Magenta 团队创建,通过邀请十位专业及半专业鼓手,在录音室环境中使用 Roland TD-11 电子鼓组进行演奏录制。演奏过程严格遵循节拍器设定的速度,并覆盖了包括摇滚、放克在内的十八种音乐风格。数据采集直接捕获了电子鼓组输出的原始 MIDI 信号,同步合成了对应的音频,确保了音符起始时间、音高和力度等信息的精确对齐,无需额外的人工标注,从而形成了包含一千余个对齐样本的高质量数据集。
特点
该数据集的核心特点在于其高度的结构化和丰富的元数据标注。它不仅提供了精确对齐的 MIDI 与合成音频,还包含了演奏者、音乐风格、速度、节拍类型、拍号及持续时间等多维度元信息。数据集采用九类标准鼓乐器分类法,将原始 MIDI 音高映射为底鼓、军鼓、踩镲等清晰类别,为算法模型提供了明确的语义标签。其数据划分明确,包含训练、验证和测试集,便于进行机器学习模型的开发与评估,是研究鼓谱转录、律动建模和节奏生成的宝贵资源。
使用方法
研究人员可通过 Hugging Face 的 `datasets` 库便捷地加载该数据集,支持流式读取以避免一次性下载全部数据。加载后,数据集以结构化的形式提供音频、MIDI 二进制文件及各项元数据字段。用户可利用 `pretty_midi` 等工具解析 MIDI 文件,提取精确的鼓点音符时序信息;同时,通过附带的 `info.csv` 元数据文件,可以轻松地按风格、鼓手等条件进行数据筛选与分析。该数据集为鼓相关任务的模型训练与测试提供了标准化的数据接口,极大地便利了相关研究的复现与推进。
背景与挑战
背景概述
Groove MIDI数据集(GMD)由Google Magenta团队于2019年创建,旨在为鼓乐转录、节奏建模及音乐生成研究提供高质量对齐的MIDI与音频数据。该数据集收录了十位鼓手在Roland TD-11电子鼓组上演奏的13.6小时表演,涵盖18种音乐风格与超过22,000个小节,精确捕捉了演奏的力度、时序等细微表达。作为鼓乐信息检索领域的基准资源,GMD推动了基于数据的节奏分析与生成模型的发展,为音乐人工智能研究奠定了重要基础。
当前挑战
该数据集致力于解决鼓乐自动转录与节奏建模的挑战,其核心问题在于如何从音频中准确识别并量化鼓击的时序、力度及乐器类别,同时建模人类演奏中的微妙节奏变化(groove)。在构建过程中,数据集面临电子鼓组动态响应与真实声学鼓存在差异的局限,且所有音频均来自单一合成引擎,导致音色多样性不足,可能影响模型向真实场景的泛化能力。
常用场景
经典使用场景
在音乐信息检索领域,Groove MIDI数据集为鼓点转录和节奏建模提供了关键资源。该数据集收录了十位鼓手在电子鼓上演奏的MIDI与音频对齐数据,涵盖了多种音乐风格和节奏模式。研究者利用这些精确的时序和力度信息,训练深度学习模型以实现自动鼓点识别,从而解析复杂节奏结构,为音乐分析与生成奠定基础。
实际应用
在实际应用中,Groove MIDI数据集被广泛用于开发智能音乐制作工具和交互式演奏系统。例如,基于该数据训练的模型可集成至数字音频工作站,实现实时鼓点伴奏生成或自动节奏补全,辅助音乐创作与教育。同时,其衍生的多音色版本进一步扩展了在虚拟鼓手和游戏音效设计等场景的适用性。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典工作,例如通过改进的序列变换方法学习节奏生成,以及利用对抗训练提升鼓点转录的鲁棒性。此外,基于原始数据重构的E-GMD和StemGMD等扩展数据集,进一步丰富了音色多样性,为跨音色的鼓点迁移学习和多轨道分离研究提供了新的实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作