MIDI AutoLabel Dataset (MALD)
收藏github2025-09-26 更新2025-09-29 收录
下载链接:
https://github.com/instr3/MIDI-AutoLabel-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
包含35万个带有和弦和调性标注的MIDI文件的数据集。MIDI文件来自洛杉矶(LA)集合。数据集提供无监督版本和监督版本,包含和弦标注、调性标注以及简化为大调/小调模式的调性标注。
A dataset containing 350,000 MIDI files annotated with chords and musical keys. These MIDI files are sourced from the Los Angeles (LA) Collection. The dataset provides two variants: unsupervised and supervised, which include chord annotations, full key annotations, and key annotations simplified to the major/minor mode.
创建时间:
2025-09-03
原始信息汇总
MIDI AutoLabel Dataset 数据集概述
数据集基本信息
- 数据集名称:MIDI AutoLabel Dataset (MALD)
- 数据规模:包含350,000个MIDI文件
- 数据来源:基于Los Angeles (LA) MIDI数据集
- 标注类型:和弦标注、调性标注
数据集版本与结构
版本划分
- v1-unsupervised:无监督版本
- v1-supervised:有监督版本(在RWC Pop数据集上进一步微调)
文件结构
dataset/ ├── v1-unsupervised.zip/ │ ├── decoded_chords/ 和弦标注 │ ├── decoded_keys/ 调性标注 │ ├── decoded_keys_majmin/ 简化调性标注(仅大调/小调) ├── v1-supervised.zip/ │ ├── decoded_chords/ 和弦标注 │ ├── decoded_keys/ 调性标注
性能比较
调性标注性能
- v1-supervised优于v1-unsupervised(基于100首人工标注歌曲微调)
- Nottingham数据集加权分数对比:
- 仅旋律:v1-supervised 0.942 vs v1-unsupervised 0.902
- 旋律+和弦:v1-supervised 0.976 vs v1-unsupervised 0.961
- 两个版本在处理调性变化时都存在困难
和弦标注性能
- v1-supervised和v1-unsupervised性能相近
- v1-supervised较少预测复杂和弦(如7和弦、9和弦)
数据获取
- 数据集下载:https://drive.google.com/drive/folders/1OcnNUW4GM_Q1pLxaSEIsEbaKB4XqZMcl
- 原始MIDI文件:需从Los Angeles数据集获取(https://github.com/asigalov61/Los-Angeles-MIDI-Dataset)
预训练模型
模型类型
- 无监督模型:位于
v1/ckpt/unsupervised,未使用人工标注数据训练 - 有监督模型:位于
v1/ckpt/supervised,在RWC Popular Music Database的100首歌曲上微调
模型特性
- 有监督调性模型质量更高,但仅输出大调/小调模式
- 无监督模型输出所有7种调式(大调、多利亚、弗里几亚、利底亚、混合利底亚、小调、洛克里亚)
使用要求
MIDI文件要求
- 必须包含正确的节拍标注(来自速度变化事件)
- 理想情况下应包含正确的小节线标注(来自速度变化+拍号事件)
- 支持单轨MIDI,但准确率可能低于全乐队MIDI
硬件要求
- 需要CUDA环境
- 推荐8G GPU内存进行推理
风格偏差
- 主要针对流行音乐MIDI文件
- 其他风格(如古典、民谣)准确率可能较低
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,MIDI AutoLabel Dataset (MALD) 的构建采用了创新的无监督与半监督方法。该数据集基于Los Angeles (LA) MIDI集合,通过自动化模型对35万首MIDI文件进行和弦与调性标注。无监督版本完全依赖算法自主生成标签,而监督版本则在无监督基础上,进一步使用100首人工标注的RWC流行音乐数据进行微调,显著提升了调性标注的精确度。这种分层构建策略既保留了大规模数据的优势,又通过有限的人工干预优化了关键任务的性能。
特点
MALD数据集的核心特点体现在其双重版本结构与专业标注体系上。数据集提供无监督和监督两个版本,其中监督版本在Nottingham数据集上的加权分数达到0.976,显著优于无监督版本的0.961。标注内容涵盖完整和弦结构与七种调式(包括大调、多利亚调式等),同时提供简化的大调/小调版本。特别值得注意的是,该数据集对包含和声与旋律的完整乐队MIDI文件表现出最佳适配性,而对古典音乐等非主流流派则存在一定的性能边界。
使用方法
使用该数据集时需遵循特定的技术流程。研究者需先配置CUDA环境并安装FluidSynth等音频合成工具,通过提供的analyze函数可对自定义MIDI文件进行自动分析。系统支持可视化功能,能通过Sonic Visualizer同步展示和弦、调性标注与频谱特征图。对于性能验证,数据集配套了专门的和弦评估脚本,可针对不同模型版本进行量化测试。需要注意的是,输入MIDI文件必须具备准确的节拍标记和强弱拍信息,且主要适用于流行音乐风格的量化乐谱文件。
背景与挑战
背景概述
MIDI自动标注数据集(MALD)由研究团队在2025年国际音乐信息检索会议(ISMIR)上提出,旨在解决音乐信息检索领域中基于内容的和弦与调性自动标注问题。该数据集构建于洛杉矶MIDI集合之上,包含35万首MIDI文件,通过无监督与监督学习相结合的方法生成标注,显著降低了传统人工标注的成本与时间消耗。其核心研究聚焦于探索无标签数据下的音乐结构理解,为音乐理论分析与计算音乐学提供了大规模基准资源,推动了自动音乐标注技术向实用化方向发展。
当前挑战
该数据集致力于应对音乐和弦与调性估计的领域挑战,传统方法依赖人工标注导致效率低下且易受主观偏差影响。构建过程中面临多重困难:原始MIDI文件需包含精确的节拍与强拍标注以保障模型性能,而实际数据中此类结构化信息常缺失或错误;数据集主要基于流行音乐风格,对古典、民谣等异构体裁的泛化能力有限;此外,模型在处理调性变化片段时难以准确定位过渡边界,且监督微调版本虽提升主要调性识别精度,却牺牲了多调式(如多利亚、弗里吉亚等)的细分能力。
常用场景
经典使用场景
在音乐信息检索领域,MIDI AutoLabel Dataset (MALD) 作为大规模自动标注数据集,其经典应用场景聚焦于无监督与半监督的调性与和弦分析。该数据集通过预训练模型对35万首MIDI文件进行自动化标注,有效支持了音乐理论研究中调性感知与和声结构的量化分析。尤其在流行音乐分析中,模型能够基于完整乐队配器的MIDI文件,精准识别调性变化与复杂和弦进行,为音乐结构解析提供了可靠的数据基础。
实际应用
在实践层面,MALD数据集已成功应用于智能音乐制作与教育领域。通过集成FluidSynth音频渲染与Sonic Visualizer可视化工具,该数据集支持实时生成带有和弦与调性标注的音频谱例。这种技术可嵌入数字音频工作站实现自动和声分析,亦可用于音乐教育平台中实时展示乐曲的和声进行与调性结构,显著提升了音乐创作与教学场景的智能化水平。
衍生相关工作
基于该数据集衍生的经典工作包括ISMIR 2025研讨会提出的无监督MIDI标注框架,其创新性地将Transformer架构与音高类探针技术结合。后续研究通过引入RWC流行音乐数据库的微调策略,发展了支持大调/小调模式识别的监督模型。这些工作共同构建了从纯无监督到半监督的音乐标注技术谱系,为音乐结构分析、自动编曲等研究方向提供了重要技术支撑。
以上内容由遇见数据集搜集并总结生成



