MIDI AutoLabel Dataset (MALD)

github2025-09-26 更新2025-09-29 收录

下载链接：

https://github.com/instr3/MIDI-AutoLabel-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含35万个带有和弦和调性标注的MIDI文件的数据集。MIDI文件来自洛杉矶(LA)集合。数据集提供无监督版本和监督版本，包含和弦标注、调性标注以及简化为大调/小调模式的调性标注。

A dataset containing 350,000 MIDI files annotated with chords and musical keys. These MIDI files are sourced from the Los Angeles (LA) Collection. The dataset provides two variants: unsupervised and supervised, which include chord annotations, full key annotations, and key annotations simplified to the major/minor mode.

创建时间：

2025-09-03

原始信息汇总

MIDI AutoLabel Dataset 数据集概述

数据集基本信息

数据集名称：MIDI AutoLabel Dataset (MALD)
数据规模：包含350,000个MIDI文件
数据来源：基于Los Angeles (LA) MIDI数据集
标注类型：和弦标注、调性标注

数据集版本与结构

版本划分

v1-unsupervised：无监督版本
v1-supervised：有监督版本（在RWC Pop数据集上进一步微调）

文件结构

dataset/ ├── v1-unsupervised.zip/ │ ├── decoded_chords/ 和弦标注 │ ├── decoded_keys/ 调性标注 │ ├── decoded_keys_majmin/ 简化调性标注（仅大调/小调） ├── v1-supervised.zip/ │ ├── decoded_chords/ 和弦标注 │ ├── decoded_keys/ 调性标注

性能比较

调性标注性能

v1-supervised优于v1-unsupervised（基于100首人工标注歌曲微调）
Nottingham数据集加权分数对比：
- 仅旋律：v1-supervised 0.942 vs v1-unsupervised 0.902
- 旋律+和弦：v1-supervised 0.976 vs v1-unsupervised 0.961
两个版本在处理调性变化时都存在困难

和弦标注性能

v1-supervised和v1-unsupervised性能相近
v1-supervised较少预测复杂和弦（如7和弦、9和弦）

数据获取

数据集下载：https://drive.google.com/drive/folders/1OcnNUW4GM_Q1pLxaSEIsEbaKB4XqZMcl
原始MIDI文件：需从Los Angeles数据集获取（https://github.com/asigalov61/Los-Angeles-MIDI-Dataset）

预训练模型

模型类型

无监督模型：位于v1/ckpt/unsupervised，未使用人工标注数据训练
有监督模型：位于v1/ckpt/supervised，在RWC Popular Music Database的100首歌曲上微调

模型特性

有监督调性模型质量更高，但仅输出大调/小调模式
无监督模型输出所有7种调式（大调、多利亚、弗里几亚、利底亚、混合利底亚、小调、洛克里亚）

使用要求

MIDI文件要求

必须包含正确的节拍标注（来自速度变化事件）
理想情况下应包含正确的小节线标注（来自速度变化+拍号事件）
支持单轨MIDI，但准确率可能低于全乐队MIDI

硬件要求

需要CUDA环境
推荐8G GPU内存进行推理

风格偏差

主要针对流行音乐MIDI文件
其他风格（如古典、民谣）准确率可能较低

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，MIDI AutoLabel Dataset (MALD) 的构建采用了创新的无监督与半监督方法。该数据集基于Los Angeles (LA) MIDI集合，通过自动化模型对35万首MIDI文件进行和弦与调性标注。无监督版本完全依赖算法自主生成标签，而监督版本则在无监督基础上，进一步使用100首人工标注的RWC流行音乐数据进行微调，显著提升了调性标注的精确度。这种分层构建策略既保留了大规模数据的优势，又通过有限的人工干预优化了关键任务的性能。

特点

MALD数据集的核心特点体现在其双重版本结构与专业标注体系上。数据集提供无监督和监督两个版本，其中监督版本在Nottingham数据集上的加权分数达到0.976，显著优于无监督版本的0.961。标注内容涵盖完整和弦结构与七种调式（包括大调、多利亚调式等），同时提供简化的大调/小调版本。特别值得注意的是，该数据集对包含和声与旋律的完整乐队MIDI文件表现出最佳适配性，而对古典音乐等非主流流派则存在一定的性能边界。

使用方法

使用该数据集时需遵循特定的技术流程。研究者需先配置CUDA环境并安装FluidSynth等音频合成工具，通过提供的analyze函数可对自定义MIDI文件进行自动分析。系统支持可视化功能，能通过Sonic Visualizer同步展示和弦、调性标注与频谱特征图。对于性能验证，数据集配套了专门的和弦评估脚本，可针对不同模型版本进行量化测试。需要注意的是，输入MIDI文件必须具备准确的节拍标记和强弱拍信息，且主要适用于流行音乐风格的量化乐谱文件。

背景与挑战

背景概述

MIDI自动标注数据集（MALD）由研究团队在2025年国际音乐信息检索会议（ISMIR）上提出，旨在解决音乐信息检索领域中基于内容的和弦与调性自动标注问题。该数据集构建于洛杉矶MIDI集合之上，包含35万首MIDI文件，通过无监督与监督学习相结合的方法生成标注，显著降低了传统人工标注的成本与时间消耗。其核心研究聚焦于探索无标签数据下的音乐结构理解，为音乐理论分析与计算音乐学提供了大规模基准资源，推动了自动音乐标注技术向实用化方向发展。

当前挑战

该数据集致力于应对音乐和弦与调性估计的领域挑战，传统方法依赖人工标注导致效率低下且易受主观偏差影响。构建过程中面临多重困难：原始MIDI文件需包含精确的节拍与强拍标注以保障模型性能，而实际数据中此类结构化信息常缺失或错误；数据集主要基于流行音乐风格，对古典、民谣等异构体裁的泛化能力有限；此外，模型在处理调性变化片段时难以准确定位过渡边界，且监督微调版本虽提升主要调性识别精度，却牺牲了多调式（如多利亚、弗里吉亚等）的细分能力。

常用场景

经典使用场景

在音乐信息检索领域，MIDI AutoLabel Dataset (MALD) 作为大规模自动标注数据集，其经典应用场景聚焦于无监督与半监督的调性与和弦分析。该数据集通过预训练模型对35万首MIDI文件进行自动化标注，有效支持了音乐理论研究中调性感知与和声结构的量化分析。尤其在流行音乐分析中，模型能够基于完整乐队配器的MIDI文件，精准识别调性变化与复杂和弦进行，为音乐结构解析提供了可靠的数据基础。

实际应用

在实践层面，MALD数据集已成功应用于智能音乐制作与教育领域。通过集成FluidSynth音频渲染与Sonic Visualizer可视化工具，该数据集支持实时生成带有和弦与调性标注的音频谱例。这种技术可嵌入数字音频工作站实现自动和声分析，亦可用于音乐教育平台中实时展示乐曲的和声进行与调性结构，显著提升了音乐创作与教学场景的智能化水平。

衍生相关工作

基于该数据集衍生的经典工作包括ISMIR 2025研讨会提出的无监督MIDI标注框架，其创新性地将Transformer架构与音高类探针技术结合。后续研究通过引入RWC流行音乐数据库的微调策略，发展了支持大调/小调模式识别的监督模型。这些工作共同构建了从纯无监督到半监督的音乐标注技术谱系，为音乐结构分析、自动编曲等研究方向提供了重要技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集