AMD (Amadeus MIDI Dataset)
收藏arXiv2025-08-28 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/longyu1315/Amadeus-S
下载链接
链接失效反馈官方服务:
资源简介:
AMD (Amadeus MIDI Dataset)是迄今为止最大的开源符号音乐数据集,包括190万个样本的预训练集和32万个带文本注释的高质量微调集。数据集由北京邮电大学人工智能学院、SketchX、CVSSP、萨里大学的研究人员创建,旨在为符号音乐生成模型提供大规模数据支持。数据集支持预训练和微调,为深入研究数据规模和模型参数大小对Amadeus模型性能的影响提供了基础。
AMD (Amadeus MIDI Dataset) stands as the largest open-source symbolic music dataset to date. It comprises a pre-training corpus of 1.9 million samples and a high-quality fine-tuning corpus of 320,000 samples with accompanying text annotations. The dataset was developed by researchers from the School of Artificial Intelligence at Beijing University of Posts and Telecommunications, SketchX, CVSSP, and the University of Surrey. Its core objective is to provide large-scale data support for symbolic music generation models. Supporting both pre-training and fine-tuning workflows, the dataset lays a solid foundation for in-depth research on the effects of data scale and model parameter size on the performance of the Amadeus model.
提供机构:
北京邮电大学人工智能学院,SketchX,CVSSP,萨里大学
创建时间:
2025-08-28
搜集汇总
数据集介绍

构建方式
在符号音乐生成领域,构建高质量数据集对模型性能至关重要。AMD数据集通过整合GigaMIDI、AriaMIDI、SymphonyNet等六个权威符号音乐资源,结合八万条自采集高质量音乐片段,构建了包含190万预训练样本与32万标注精调样本的大规模语料库。采用多阶段数据清洗策略,过滤无效音轨并统一标准化元数据,最终形成包含约40亿音乐事件、320亿属性令牌的符号音乐知识体系,为探索数据规模与模型性能关系提供了坚实基础。
特点
该数据集在符号音乐数据生态中具有显著特性。其预训练模块覆盖多流派音乐结构,精调样本配备结构化文本描述,支持语义控制生成任务。数据表征采用改进的基于音符编码方案,将每个音符解构为类型、节拍、和弦等八个并发属性,突破传统有序依赖假设。通过保留原始乐器轨道的设计策略,有效维护音乐纹理与文本控制信号的对齐精度,为细粒度可控生成提供理想实验环境。
使用方法
该数据集支持符号音乐生成的完整研究流程。预训练模块适用于开发基础生成模型,精调样本可结合文本描述实现条件音乐生成。使用时需先将MIDI文件转换为属性令牌序列,通过自回归音符生成器与双向离散扩散解码器的两级架构进行建模。研究者可调整去噪步数平衡生成质量与速度,利用属性并发特性实现训练自由的细粒度控制,在无条件生成、文本引导生成等任务中验证模型性能。
背景与挑战
背景概述
AMD(Amadeus MIDI Dataset)作为当前规模最大的开源符号音乐数据集,由北京邮电大学与萨里大学联合团队于2025年构建,旨在突破自回归模型在符号音乐生成中的性能瓶颈。该数据集聚焦于解决音乐序列建模中音符属性间内在并发性的核心问题,通过整合GigaMIDI、SymphonyNet等六大权威数据源,构建包含190万预训练样本与32万标注样本的语料库,为探索音符级自回归与属性级双向扩散的混合架构提供了数据基础,显著推动了可控符号音乐生成领域的发展。
当前挑战
符号音乐生成领域长期面临音符属性间虚假时序依赖的建模挑战,传统方法将并发属性强制序列化导致生成质量与效率失衡。AMD数据集构建过程中需克服多源MIDI数据标准化难题,包括乐器轨道的语义对齐、和弦与时值特征的跨格式解析,以及文本标注中音乐术语与音频特征的映射一致性。此外,数据清洗时需保留原始音乐的谐波结构与节奏复杂性,避免音高熵与节奏一致性的指标失真。
常用场景
经典使用场景
在符号音乐生成研究领域,AMD数据集作为当前规模最大的开源MIDI数据集,为自回归与双向扩散混合架构提供了关键支撑。该数据集在无条件音乐生成任务中展现出卓越性能,通过结构一致性指标验证了其生成音乐在长序列建模中的稳定性,同时音高熵与音级熵的显著优势体现了对复杂和声结构的精确建模能力。
解决学术问题
AMD数据集有效解决了符号音乐生成中序列长度与建模质量的平衡难题。传统方法将音符属性视为有序序列导致生成效率低下,而该数据集支撑的双向离散扩散模型突破了属性间单向依赖的假设,在保持音乐结构连贯性的同时实现至少4倍的生成加速。其引入的对比学习约束机制显著增强了潜在空间表征的判别性,为细粒度音符属性控制提供了理论依据。
衍生相关工作
基于AMD数据集的双向属性建模范式催生了系列创新研究,包括融合全局信息的条件增强模块设计与步长可调的解码机制。这些衍生工作通过离散扩散过程实现属性并行解码,在保持生成质量的同时显著提升推理效率。后续研究进一步探索了潜在空间判别性增强策略与注意力机制的协同优化,为符号音乐生成的实时化与可控化开辟了新路径。
以上内容由遇见数据集搜集并总结生成



