Lakh MIDI Dataset

arXiv2025-09-30 收录

下载链接：

https://colinraffel.com/projects/lmd/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于模板旋律生成的MIDI数据，经过处理以获取高质量的旋律数据。此外，该数据集还经过了提取旋律、标准化音调和音高的处理。规模上，该数据集包含了45,129条MIDI数据，其任务旨在进行模板至旋律的生成。

This dataset contains MIDI data for template melody generation, which has been processed to yield high-quality melody samples. Furthermore, the dataset has undergone additional processing steps including melody extraction, tone and pitch standardization. In terms of scale, the dataset includes 45,129 MIDI data entries, and it is designed for the task of template-to-melody generation.

搜集汇总

数据集介绍

构建方式

在自动鼓转录领域，大规模配对音频-MIDI数据集的稀缺性长期制约着深度学习方法的发展。为突破这一瓶颈，研究者从Lakh MIDI数据集的LMD-matched分区中选取了45,129个高质量MIDI文件，并以此为基础构建合成训练数据。该数据集的构建核心在于一套半监督流水线：首先从12个公开音色库中聚合8,495个无标签的单次鼓采样，随后人工标注1,421个样本作为种子集，并利用CLAP模型的音频编码器提取嵌入特征，为26种鼓乐器类别计算质心向量。通过余弦相似度度量，剩余7,074个未标注样本被自动分类至对应类别，同时保留置信度分数以控制数据质量。最终，在训练过程中，系统从MIDI文件中随机截取2.56秒片段，借助该单次采样库实时合成音频，并通过线性插值技术增强样本多样性，从而生成高保真、多样化的训练数据。

使用方法

该数据集的使用方法紧密围绕序列到序列的转录框架展开，其设计极具实用性与可复现性。使用者可直接从Lakh MIDI数据集的MIDI文件中随机选取2.56秒片段，并利用数据集提供的单次鼓采样库进行实时音频合成，无需任何真实录音。合成过程中，系统支持通过线性插值随机混合同类采样，以进一步丰富声学特征。生成的音频以梅尔频谱图形式输入编码器-解码器Transformer模型，解码器则自回归地输出包含速度、乐器类别和速度信息的MIDI令牌序列。为便于与现有基准对比，数据集的26类标签可按需映射至8类简化分类体系。所有代码与预训练模型均已开源，研究者可轻松复现实验或基于该流水线扩展自定义乐器词汇表，适用于自动鼓转录的多种场景，如仅鼓声、鼓与打击乐混合以及完整音乐编排中的鼓转录任务。

背景与挑战

背景概述

Lakh MIDI Dataset是由Colin Raffel于2016年创建的大规模MIDI数据集，旨在为音乐信息检索领域提供丰富的符号音乐资源。该数据集包含超过45,000首MIDI文件，并与百万歌曲数据集对齐，确保了高质量的元数据。其核心研究问题在于如何利用海量符号音乐数据推动音频到MIDI的自动转录任务，尤其是在自动鼓转录领域。Lakh MIDI Dataset的发布显著促进了合成数据生成策略的发展，为缺乏配对音频-MIDI标注的深度学习模型提供了训练基础，成为该领域不可或缺的基准资源，对后续研究产生了深远影响。

当前挑战

Lakh MIDI Dataset面临的核心挑战在于解决自动鼓转录中数据稀缺与领域差距问题。首先，该领域依赖于大规模配对音频-MIDI数据，但此类标注资源极为匮乏，现有合成数据方法因使用低保真SoundFont库而引入显著领域差距，导致模型在真实音频分布上泛化能力不足。其次，构建过程中需应对单次鼓样本库缺乏标准化的问题，包括标签歧义、命名规则不统一以及样本多样性有限，这要求开发半监督分类管道以自动扩充高质量样本库，并设计精细的乐器词汇表以提升分类精度，从而缩小合成数据与真实数据之间的分布鸿沟。

常用场景

经典使用场景

Lakh MIDI Dataset作为大规模符号音乐数据库，在自动鼓转录（ADT）领域扮演着核心角色。研究者常利用其LMD-matched子集，该子集包含45,129个与百万歌曲数据集对齐的高质量MIDI文件，为模型提供丰富的节奏与乐器结构信息。通过将MIDI文件实时合成为音频，该数据集有效支撑了序列到序列Transformer模型的训练，使得模型能够在无配对音频-MIDI数据的情况下，从合成音频中学习鼓信号的映射关系，从而在ENST和MDB等基准测试中取得领先性能。

解决学术问题

该数据集解决了自动鼓转录领域长期面临的数据稀缺难题。传统方法依赖大规模配对音频-MIDI语料库，但此类资源极为匮乏，且基于SoundFont的合成数据存在显著的域偏移。Lakh MIDI Dataset通过提供海量、多样化的MIDI文件，结合半监督单次样本库构建管道，实现了高质量合成音频的生成，有效弥合了合成数据与真实数据之间的分布差异。这一创新不仅提升了模型在鼓专用转录任务中的泛化能力，还为音乐信息检索领域提供了可复现的数据驱动范式。

实际应用

在实际应用中，Lakh MIDI Dataset驱动的自动鼓转录系统被广泛集成于音乐制作软件、数字音频工作站及实时演奏分析工具中。例如，音乐制作人可利用该技术将鼓录音自动转换为MIDI序列，从而简化编辑与混音流程；教育平台则能通过转录结果提供演奏反馈，辅助学习者纠正节奏与力度错误。此外，该数据集还支持音乐检索系统的构建，使用户能够基于节奏模式快速定位目标曲目，极大提升了音乐内容管理的效率与智能化水平。

数据集最近研究