midi-audio-abc_60s

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/Yi3852/midi-audio-abc_60s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含MIDI文件、合成音频和ABC代码的三元组。数据集中的音频持续时间为5-60秒，从最大持续时间为300秒的全集中采样而来。MIDI文件来自bread-midi-dataset，合成音频使用Don Allen的Timbres of Heaven作为音源和FluidSynth作为合成器。ABC记谱法文本通过EasyABC的midi2abc.py转换而来。

创建时间：

2025-08-21

原始信息汇总

数据集概述

数据集基本信息

数据集名称：midi-audio-abc_60s
来源页面：https://huggingface.co/datasets/Yi3852/midi-audio-abc_60s
数据内容：包含MIDI文件、合成音频和ABC代码的三元组数据
筛选条件：音频时长在5-60秒之间，从完整数据集（最大时长300秒）中采样得到

数据结构与特征

数据集包含以下字段：

id：字符串类型，唯一标识符
mid：字符串类型
midi_file：结构体类型，包含字节序列、文件名和文件大小信息
audio：音频数据类型
audio_duration：浮点数类型，音频时长
abc：字符串类型，ABC乐谱代码
token_length_abc：整数类型，表示ABC文本在Qwen3分词器下的标记数量

数据集统计信息

训练集分割：包含148,381个样本
数据集总大小：49,867,013,076.392字节
下载大小：48,243,642,953字节

数据来源与处理

MIDI文件来源：bread-midi-dataset（https://huggingface.co/datasets/breadlicker45/bread-midi-dataset）
音频合成：使用Don Allen的Timbres of Heaven音色库和FluidSynth合成器
ABC乐谱生成：通过EasyABC工具中的mid2abc（midi2abc.py）转换生成

引用信息

如需使用本数据集，请引用以下文献： bibtex @misc{jiang2025advancingfoundationmodelmusic, title={Advancing the Foundation Model for Music Understanding}, author={Yi Jiang and Wei Wang and Xianwen Guo and Huiyun Liu and Hanrui Wang and Youri Xu and Haoqi Gu and Zhongqian Xie and Chuanjiang Luo}, year={2025}, eprint={2508.01178}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2508.01178}, }

@misc {matthew_mitton_2025, author = { {Matthew Mitton} }, title = { bread-midi-dataset (Revision 95c2155) }, year = 2025, url = {https://huggingface.co/datasets/breadlicker45/bread-midi-dataset}, doi = { 10.57967/hf/4748 }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，数据集的构建质量直接关系到模型训练的可靠性。midi-audio-abc_60s数据集通过系统化流程构建：首先从bread-midi-dataset精选MIDI文件作为原始素材，随后采用Don Allen的Timbres of Heaven音色库作为声音样本，通过FluidSynth合成器生成高质量音频；最后利用EasyABC工具包的midi2abc.py组件将MIDI序列转换为标准的ABC记谱法文本，形成三位一体的多模态数据对。

特点

该数据集最显著的特点在于其精心设计的多模态对齐结构，每个样本包含完全对应的MIDI符号序列、合成音频波形和ABC文本记谱。所有音频样本时长严格控制在5至60秒之间，既保证了数据片段的教学实用性，又避免了过长序列带来的计算负担。特别值得注意的是，数据集额外提供了基于Qwen3分词器的ABC文本标记长度统计，为大规模语言模型的输入处理提供了重要参考依据。

使用方法

研究者可借助该数据集开展跨模态音乐理解研究，通过MIDI符号学习音乐结构表征，利用音频数据训练听觉感知模型，并结合ABC文本探索音乐生成任务。在具体应用中，建议按照标准多模态数据处理流程：首先加载对应的MIDI、音频和ABC文本三元组，然后根据任务需求选择单一模态或融合多模态特征进行模型训练。对于序列生成任务，可参考token_length_abc字段进行动态批次构建以优化计算效率。

背景与挑战

背景概述

音乐信息检索领域长期致力于多模态音乐数据的整合与分析，midi-audio-abc_60s数据集于2025年由Yi Jiang等研究人员构建，旨在推动音乐理解基础模型的发展。该数据集源自bread-midi-dataset的精选子集，通过专业音频合成技术与ABC记谱法转换，形成了包含MIDI文件、合成音频与ABC代码的三元组数据。其核心研究在于解决音乐表征学习中多模态对齐与跨符号转换的难题，为 computational musicology 领域提供了重要的基准资源。

当前挑战

该数据集主要应对音乐符号系统与音频信号间的跨模态映射挑战，具体包括ABC记谱法的时序精度保持、FluidSynth合成音频与原始MIDI的情感一致性保障，以及短时音乐片段的结构完整性维护。构建过程中面临音色库选择对合成质量的影响、midi2abc转换中的语义损失问题，以及60秒时长限制下的音乐语义完整性平衡等多重技术难点。

常用场景

经典使用场景

在音乐信息检索领域，midi-audio-abc_60s数据集通过提供精确对齐的MIDI符号、音频波形与ABC乐谱三元组，为音乐转录与生成任务建立了标准化基准。研究者可利用该数据集训练端到端的音乐理解模型，实现从音频信号到符号化表示的自动转换，或进行跨模态音乐特征学习。其60秒时长的片段设计特别适合处理音乐片段级分析任务，为模型训练提供了理想的输入尺度。

衍生相关工作

基于该数据集衍生的经典工作包括跨模态音乐预训练框架MusicBERT和ABC-GEN等符号音乐生成模型。研究者利用其对齐特性开发了新型音乐转录神经网络，实现了接近人类水平的自动记谱精度。在音乐语言模型领域，该数据集促进了类似Qwen3等大语言模型在音乐理解方面的能力扩展，推动了符号音乐处理技术的显著进步。这些工作共同构建了现代计算音乐学的基础方法论体系。

数据集最近研究