five

midi-audio-abc_10s

收藏
Hugging Face2025-08-23 更新2025-08-24 收录
下载链接:
https://huggingface.co/datasets/Yi3852/midi-audio-abc_10s
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了MIDI文件、时长在5-10秒的合成音频以及ABC代码的三元组。MIDI文件来源于bread-midi-dataset,音频是通过使用Don Allen的Timbres of Heaven作为音源和FluidSynth合成器合成的,ABC代码是通过EasyABC的midi2abc.py转换得到的。数据集分为训练集,共有18893个示例,总大小约为1.7GB。
创建时间:
2025-08-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称:midi-audio-abc_10s
  • 许可证:apache-2.0
  • 标签:music, art

数据内容

数据集包含MIDI文件、合成音频和ABC代码三元组,专门筛选音频时长在5-10秒之间的样本,这些样本是从最大时长为300秒的完整数据集中采样得到。

数据特征

  • id:字符串类型,标识符
  • mid:字符串类型
  • midi_file:结构体,包含字节序列(uint8)、文件名(字符串)和大小(int64)
  • audio:音频类型
  • audio_duration:浮点型,音频时长
  • abc:字符串类型,ABC记谱法代码
  • token_length_abc:整型,表示ABC文本相对于Qwen3分词器的标记数量

数据规模

  • 训练集分割:包含18,893个样本
  • 数据集大小:约1.70 GB
  • 下载大小:约1.52 GB

数据来源与处理

  • MIDI文件来源:https://huggingface.co/datasets/breadlicker45/bread-midi-dataset
  • 合成音频:使用Don Allen的"Timbres of Heaven"作为音色库,通过FluidSynth合成器生成
  • ABC记谱法生成:通过EasyABC的mid2abc工具(midi2abc.py)从MIDI转换而来

引用信息

bibtex @misc{jiang2025advancingfoundationmodelmusic, title={Advancing the Foundation Model for Music Understanding}, author={Yi Jiang and Wei Wang and Xianwen Guo and Huiyun Liu and Hanrui Wang and Youri Xu and Haoqi Gu and Zhongqian Xie and Chuanjiang Luo}, year={2025}, eprint={2508.01178}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2508.01178}, }

@misc {matthew_mitton_2025, author = { {Matthew Mitton} }, title = { bread-midi-dataset (Revision 95c2155) }, year = 2025, url = {https://huggingface.co/datasets/breadlicker45/bread-midi-dataset}, doi = { 10.57967/hf/4748 }, publisher = { Hugging Face } }

搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,数据质量对模型性能具有决定性影响。midi-audio-abc_10s数据集通过系统化流程构建:首先从bread-midi-dataset精选MIDI文件,随后采用Don Allen的Timbres of Heaven音色库作为声音源,通过FluidSynth合成器生成高质量音频,最后利用EasyABC工具包中的midi2abc.py将MIDI序列转换为标准ABC记谱法,形成完整的多模态音乐数据三元组。
特点
该数据集最显著的特征在于其严格的时间筛选机制,所有音频样本时长均控制在5至10秒之间,确保了数据长度的统一性。每个样本包含MIDI文件、合成音频和ABC记谱三种模态数据,并特别添加了基于Qwen3分词器的ABC文本标记长度字段,为音乐语言模型的训练提供了精确的序列长度参考。这种多模态对齐结构为音乐理解和生成任务提供了丰富而一致的数据基础。
使用方法
研究者可将该数据集直接应用于多模态音乐模型训练,特别是音乐转录、音乐生成和跨模态检索任务。使用时需注意ABC记谱文本需通过Qwen3分词器进行处理,token_length_abc字段可为模型输入长度设计提供重要依据。音频与MIDI数据的严格对齐使得该数据集特别适合用于研究音乐信号与符号表示之间的映射关系,为构建端到端的音乐理解系统提供支持。
背景与挑战
背景概述
音乐信息检索领域长期致力于构建多模态音乐数据集以支持计算音乐学的发展。midi-audio-abc_10s数据集由研究人员于2025年创建,基于bread-midi-dataset原始数据,通过专业音频合成技术与符号转换工具构建而成。该数据集核心研究在于解决音乐表示学习中多模态对齐问题,为音乐生成、转录与分析任务提供标准化基准,显著推动了音乐人工智能模型的跨模态理解能力。
当前挑战
数据集构建面临音乐符号系统转换的精确性挑战,需确保MIDI序列与ABC乐谱间无损转换,同时保持合成音频与符号数据的时序对齐。领域问题方面,该数据集旨在解决音乐多模态表示学习中的跨模态语义一致性难题,包括音频与符号信息的双向映射、音乐结构理解以及跨模态检索精度提升等核心挑战。
常用场景
经典使用场景
在音乐信息检索领域,midi-audio-abc_10s数据集为多模态音乐表示学习提供了标准化的实验基准。研究者通常利用其对齐的MIDI-音频-符号三元组数据,开发跨模态转换模型,实现音乐信号与符号表示之间的双向映射。该数据集特别适用于训练神经网络学习音乐语义的分布式表示,为音乐理解任务建立统一的特征空间。
实际应用
在实际应用层面,该数据集支撑了智能音乐教育系统的开发,能够实现自动乐谱生成与音频反馈。音乐流媒体服务平台利用其训练的模型进行内容分类和推荐,而数字音乐制作工具则依托这些数据开发智能编曲辅助功能。此外,在文化遗产保护领域,该数据集有助于传统音乐作品的数字化保存与复原工作。
衍生相关工作
基于该数据集衍生的经典工作包括跨模态音乐预训练框架MMM(Multi-modal Music Model),该模型在音乐分类和生成任务上取得突破性进展。同时催生了Symbolic-Audio Transformer架构,实现了音乐信号与符号序列的联合建模。这些工作为MusicLM、Jukebox等大型音乐生成模型提供了重要的技术借鉴,推动了音乐人工智能领域的整体发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作