Lakh MIDI Dataset

Name: Lakh MIDI Dataset
Creator: 罗马第一大学; 罗马第三大学; 索尼计算机科学实验室
Published: 2026-01-14 22:39:05
License: 暂无描述

arXiv2026-01-14 更新2026-01-16 收录

下载链接：

https://github.com/pier-maker92/ADT_STR

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Lakh MIDI Dataset构成，是一个大规模MIDI文件集合，用于自动鼓转录（ADT）任务的训练。数据集包含45,129个MIDI文件，源自LMD-matched分区，与Million Song Dataset对齐以确保高质量的元数据。数据通过半监督方法从公开的样本库中整理，包含8,495个鼓样本，涵盖26种乐器类别。数据集的应用领域为音乐信息检索（MIR），旨在解决鼓转录任务中真实数据稀缺的问题，通过合成数据生成提高模型性能。

提供机构：

罗马第一大学; 罗马第三大学; 索尼计算机科学实验室

创建时间：

2026-01-14

原始信息汇总

ADT_STR 数据集概述

数据集简介

ADT_STR 是一个用于自动鼓转录（Automatic Drum Transcription）模型的数据集与项目。

核心方法：基于CLAP的样本管理

该项目实现了一种无监督方法，用于从未标记的音频源中自动整理出一个庞大且多样的一次性鼓样本库。

方法原理：利用CLAP音频特征，从一个小的、手工整理的参考样本集开始，创建一个结构化的、用于合成数据生成的一次性样本库。
流程概述：
1. 给定一个手工标记的一次性样本集 G 和一个大型非结构化样本库 U。
2. 通过CLAP的音频编码器对两者进行编码。
3. 对于 G 中的每个参考样本，计算其与 U 中所有样本的相似度分数，并选择最相似的样本。
4. 最终生成一个结构化的样本库 C，它继承了 G 的类别组织结构，同时规模扩展到 U 的大小。
方法特点：该方法具有可扩展性，适用于任何非结构化的一次性样本库。

项目结构

项目代码库主要包含以下核心文件与目录：

根目录脚本：
- train.py：训练脚本。
- inference.py：推理和评估脚本。
- model.py：模型架构定义。
- config.py：配置数据类。
配置目录 (configs/)：
- config_default.yaml：默认配置文件。
- train/：训练配置文件。
- eval/：评估配置文件。
核心模块目录 (modules/)：
- midi_tokenizer.py：MIDI分词器。
- synthetiser.py：合成器。
- segmenter.py：分割器。
数据模块目录 (data_modules/)：
- train_dataset.py：训练数据集处理。
- eval_dataset.py：评估数据集处理。
工具目录 (utils/)：工具函数。

配置与使用

配置系统：使用YAML文件进行配置。默认配置 (configs/config_default.yaml) 会与实验特定配置合并。
训练：
- 训练脚本使用HuggingFace的 Trainer，并设计为与 accelerate 配合以支持多GPU训练。
- 关键配置参数包括：批次大小、训练轮数、学习率、训练数据集路径、鼓一次性样本路径以及检查点输出目录。
推理与评估：
- 支持在ENST或MDB数据集上进行评估。
- 关键配置参数包括：模型检查点路径、评估数据集路径以及结果输出目录。

结果

项目在ENST和MDB数据集上进行了评估并展示了结果。

搜集汇总

数据集介绍

构建方式

在自动鼓转录领域，高质量配对音频-MIDI数据的稀缺性长期制约着深度学习模型的性能提升。为应对这一挑战，Lakh MIDI Dataset的构建采用了一种创新的半监督流程，首先从12个公开样本包中汇集未标记的单次鼓样本，并手动标注1421个样本作为种子集，涵盖26种乐器类别。随后利用CLAP音频编码器提取嵌入特征，计算各类别的质心表征，进而通过余弦相似度度量将剩余7074个未标记样本自动分类，最终形成一个包含8495个样本的标准化单次鼓样本库，为后续高质量合成数据生成奠定基础。

使用方法

在模型训练阶段，该数据集的使用方法体现为一种动态合成策略。以Lakh MIDI Dataset中的MIDI文件为符号源，结合构建的单次鼓样本库，在训练过程中实时将随机选取的2.56秒MIDI片段渲染为音频。为进一步增强数据多样性，系统采用线性插值技术，对同一乐器类别的两个样本进行加权混合，生成音色连续变化的新合成样本。这种端到端的合成流程使得模型能够完全在合成数据上训练，却能在ENST和MDB等真实鼓录音测试集上达到领先性能，验证了其作为训练资源的有效性与泛化能力。

背景与挑战

背景概述

Lakh MIDI Dataset 作为自动鼓转录领域的重要数据资源，其构建背景源于深度学习模型在该任务中对大规模配对音频-MIDI数据的迫切需求。该数据集由Colin Raffel等人于2016年创建，核心研究问题在于解决音乐信息检索中符号音乐数据与音频数据之间的对齐与匹配难题。通过将MIDI序列与百万歌曲数据集进行对齐，该数据集为音乐生成、转录及分析任务提供了高质量的符号音乐表示基础，显著推动了基于数据驱动的音乐人工智能研究进展。

当前挑战

在自动鼓转录领域，Lakh MIDI Dataset面临的核心挑战在于如何弥合合成数据与真实音频之间的分布差距。具体而言，传统基于SoundFont的合成方法产生的音频缺乏声学多样性，导致模型在真实鼓信号上的泛化能力受限。构建过程中的挑战则体现在：一方面需要从非结构化的公开采样库中构建标准化的大规模一击鼓采样库，解决标签模糊与命名不一致问题；另一方面需设计半监督流水线对未标注音频进行自动分类，建立具有声学代表性的乐器类别中心，以支撑高质量合成数据的生成。

常用场景

经典使用场景

在自动鼓点转录研究领域，Lakh MIDI Dataset 作为大规模符号音乐数据的代表，其最经典的应用场景在于为深度学习模型提供高质量的合成训练数据。该数据集通过标准化的MIDI文件格式，为研究者构建了丰富的节奏模式和乐器组合模板，使得基于序列到序列架构的转录模型能够学习到复杂的鼓点时序关系与多乐器协同模式。这种数据驱动的方法有效缓解了真实配对音频-符号数据稀缺的困境，为模型性能提升奠定了坚实基础。

解决学术问题

该数据集主要解决了自动鼓点转录领域中训练数据严重不足的核心学术问题。传统方法依赖有限的专业录音数据集，导致模型泛化能力受限。通过将Lakh MIDI Dataset与高质量单次采样库结合，研究者能够生成声学特性丰富、节奏变化多样的合成音频，显著缩小了合成数据与真实数据之间的分布差距。这种数据生成范式不仅提升了转录精度，还为探索少样本学习、域适应等前沿课题提供了新的实验平台。

实际应用

在实际应用层面，基于Lakh MIDI Dataset构建的转录系统已展现出广泛的实用价值。在音乐教育领域，该系统能够将学生演奏的鼓声实时转换为标准乐谱，辅助节奏训练与技巧评估。音乐制作工业则利用其自动化转录能力，快速提取现有录音中的鼓点轨道，便于混音重构与风格分析。智能乐器开发者也借助该技术实现交互式演奏指导功能，通过即时反馈帮助演奏者改进节奏准确性。

数据集最近研究