midi-audio-abc_30s

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/Yi3852/midi-audio-abc_30s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含MIDI文件、合成音频和ABC代码的三元组，音频时长在5-30秒，是从最大时长为300秒的全集中抽取的子集。数据集提供了包括id、mid、midi文件信息、音频信息、音频时长、ABC文本及其token长度等字段。

创建时间：

2025-08-21

原始信息汇总

数据集概述

基本信息

数据集名称: midi-audio-abc_30s
来源: 从完整数据集[midi-audio-abc_300s](https://huggingface.co/datasets/Yi3852/midi- audio-abc_300s)中采样得到
数据量: 74,909个样本
总大小: 16,085,858,261.536字节
下载大小: 13,529,342,431字节

数据内容

该数据集包含MIDI文件、合成音频和ABC代码三元组，所有音频时长均在5-30秒范围内。

数据结构

数据集包含以下字段：

id: 字符串类型，样本标识符
mid: 字符串类型
midi_file: 结构体类型，包含：
- bytes: 字节序列(uint8)
- filename: 字符串类型，文件名
- size: int64类型，文件大小
audio: 音频数据类型
audio_duration: float64类型，音频时长
abc: 字符串类型，ABC记谱法代码
token_length_abc: int64类型，基于Qwen3分词器的ABC文本标记数量

数据来源与处理

MIDI文件: 来源于bread-midi-dataset
合成音频: 使用Don Allen的Timbres of Heaven作为音色库，通过FluidSynth合成器生成
ABC记谱法: 通过EasyABC的midi2abc.py工具从MIDI转换得到

引用信息

bibtex @misc{jiang2025advancingfoundationmodelmusic, title={Advancing the Foundation Model for Music Understanding}, author={Yi Jiang and Wei Wang and Xianwen Guo and Huiyun Liu and Hanrui Wang and Youri Xu and Haoqi Gu and Zhongqian Xie and Chuanjiang Luo}, year={2025}, eprint={2508.01178}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2508.01178}, }

@misc {matthew_mitton_2025, author = { {Matthew Mitton} }, title = { bread-midi-dataset (Revision 95c2155) }, year = 2025, url = {url{https://huggingface.co/datasets/breadlicker45/bread-midi-dataset }}, doi = { 10.57967/hf/4748 }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，多模态数据集的构建对模型训练至关重要。本数据集从bread-midi-dataset获取原始MIDI文件，通过FluidSynth合成器配合Timbres of Heaven音色库生成对应音频，并利用EasyABC工具包的midi2abc.py组件将MIDI转换为ABC记谱法文本，最终形成MIDI-音频-ABC三元组数据。所有样本均经过严格筛选，确保音频时长介于5至30秒之间，保证了数据的统一性和可用性。

特点

该数据集的核心特征在于其多模态对齐结构，每个样本包含完全对应的MIDI文件、合成音频和ABC符号表示。数据集规模达74,909个训练样本，音频总时长经过精确计算并标注，ABC文本还特别提供了基于Qwen3分词器的符号长度统计。这种精心设计的结构为音乐理解和生成任务提供了丰富的跨模态对应关系，极大促进了音乐表示学习的研究。

使用方法

研究人员可直接加载数据集进行端到端的音乐多模态学习，利用MIDI-音频-ABC三元组训练音乐理解或生成模型。ABC文本的符号长度信息便于控制序列生成复杂度，音频和MIDI的对应关系支持跨模态检索任务。数据集兼容主流机器学习框架，支持流式读取和批量处理，特别适合训练基于Transformer架构的音乐基础模型。

背景与挑战

背景概述

音乐信息检索领域近年来对多模态音乐表征学习的需求日益增长，midi-audio-abc_30s数据集应运而生。该数据集由研究团队于2025年构建，核心在于提供MIDI文件、合成音频与ABC记谱法的三元对应数据，旨在推动音乐理解基础模型的发展。通过精心设计的30秒音频片段采样策略，该数据集为音乐生成、转录与分析任务提供了重要支撑，显著促进了跨模态音乐表征学习的研究进展。

当前挑战

数据集构建面临多模态对齐的技术挑战，需确保MIDI符号、音频信号与ABC记谱三者间的精确时序同步。音频合成环节涉及音色库选择与合成参数优化，需要平衡音质真实性与计算效率。在符号音乐表征方面，ABC记谱的标准化转换存在乐谱元素完整保留与格式统一化的难题。此外，数据规模与质量的平衡要求严格的筛选机制，以排除低质量或异常音乐片段，保证数据集的可靠性与有效性。

常用场景

经典使用场景

在音乐信息检索领域，midi-audio-abc_30s数据集为多模态音乐表示学习提供了标准化的基准。研究者通常利用其对齐的MIDI-音频-符号三元组数据，训练神经网络学习音乐信号与符号表示之间的跨模态映射关系，尤其适用于音乐转录、音乐生成和跨模态检索任务的性能评估。

解决学术问题

该数据集有效解决了音乐计算研究中多模态数据对齐的难题，为音乐理解与生成任务提供了高质量的训练资源。通过提供精确时间对齐的三种音乐表示形式，它显著促进了端到端音乐转录系统的开发，推动了符号音乐生成模型的质量提升，并对音乐语义表示学习产生了深远影响。

衍生相关工作

基于该数据集衍生的经典工作包括多模态音乐预训练架构的开发，如音乐跨模态Transformer模型。研究者利用其三元组特性提出了新颖的音乐表示学习方法，产生了在音乐分离、伴奏生成和风格迁移等方面的重要成果，这些工作显著推动了 computational musicology 领域的发展进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集