MDS corpus

Name: MDS corpus
Creator: 约翰内斯开普勒大学计算感知研究所 & LIT AI实验室
Published: 2025-12-17 01:12:26
License: 暂无描述

arXiv2025-12-17 更新2025-12-18 收录

下载链接：

https://zenodo.org/records/17467279

下载链接

链接失效反馈

官方服务：

资源简介：

MDS数据集由约翰内斯开普勒大学团队构建，包含Genre、Random和MAEtest三个子集，旨在评估自动音乐转录系统在不同音乐分布偏移下的性能。数据集包含多样化的音乐流派和随机音符序列，通过雅马哈Disklavier三角钢琴录制，总数据量未明确说明但包含严格筛选的MIDI-音频对齐样本。该数据集专为分析声音与音乐维度上的分布偏移而设计，适用于测试AMT系统在非训练分布条件下的泛化能力，尤其关注古典钢琴音乐之外的转录鲁棒性研究。

The MDS dataset was developed by the research team at Johannes Kepler University. It comprises three subsets: Genre, Random, and MAEtest, and is intended to assess the performance of automatic music transcription (AMT) systems under varying music distribution shifts. The dataset encompasses diverse musical genres and random note sequences, all recorded with a Yamaha Disklavier grand piano. While the total size of the dataset remains unspecified, it includes strictly curated MIDI-audio aligned samples. This dataset is specifically designed for analyzing distribution shifts across acoustic and musical dimensions, and serves as a testbed for evaluating the generalization capability of AMT systems under out-of-training-distribution scenarios, with a particular emphasis on research into transcription robustness beyond classical piano music.

提供机构：

约翰内斯开普勒大学计算感知研究所 & LIT AI实验室

创建时间：

2025-12-17

搜集汇总

数据集介绍

构建方式

在自动音乐转录领域，数据集的构建对于评估模型在分布偏移下的鲁棒性至关重要。MDS语料库的构建始于MIDI文件的精心收集与筛选，特别关注音乐风格的多样性。研究团队从ADL钢琴MIDI数据集中手工挑选了涵盖古典、蓝调、摇滚等10种音乐流派的曲目，并应用了严格的过滤标准，包括曲目时长、音符活动间隙、平均复音水平及音符动态范围等，以确保数据质量与代表性。随后，这些MIDI文件通过雅马哈Disklavier三角钢琴进行自动化演奏并录制音频，确保了声音分布的一致性，从而在恒定声音条件下模拟音乐分布的变化。此外，数据集还包含了随机生成的音符序列，以模拟极端分布偏移，以及MAESTRO测试集的子集，用于校准与参考。整个构建过程强调了对音乐与声音分布轴线的系统控制，为深入分析转录模型的泛化能力提供了坚实基础。

特点

MDS语料库的显著特点在于其精心设计的结构，旨在系统探究自动音乐转录模型在分布偏移下的表现。该数据集包含三个独立子集：流派子集涵盖了10种音乐风格，通过多样化的曲目选择反映了音乐分布的广泛性；随机子集由完全随机化的音符序列构成，模拟了极端非音乐性分布偏移，用于测试模型在非常规输入下的极限；MAEtest子集则基于MAESTRO测试集，通过Disklavier录制提供了声音分布变化的对照。这些子集共同实现了对声音与音乐分布轴线的分离控制，使得研究者能够量化不同偏移对转录性能的影响。数据集还提供了精确的时间对齐音频-MIDI配对，确保了评估的可靠性，并通过音乐学统计分析揭示了各流派的和谐结构与动态特征，为深入理解模型偏差提供了丰富视角。

使用方法

MDS语料库的使用旨在全面评估自动音乐转录模型在分布偏移下的鲁棒性与泛化能力。研究者首先利用数据集中的MAEtest子集，对比模型在原始MAESTRO音频与Disklavier录制音频上的表现，以量化声音分布偏移的影响。随后，通过流派子集分析模型在不同音乐风格下的转录性能，揭示音乐分布偏移导致的性能变化。随机子集则用于探究模型在极端非音乐性序列上的表现，进一步检验语料库偏差问题。评估过程中，除了传统的基于信息检索的指标（如音符级F1分数），还引入了音乐感知指标，如表达性时序、清晰度、和谐度与动态范围，以捕捉转录质量中更细微的音乐相关性。这种多层次评估框架有助于识别模型在真实场景中面临的具体挑战，并为改进转录系统的设计提供实证依据。

背景与挑战

背景概述

MDS corpus（音乐分布偏移数据集）由奥地利约翰内斯·开普勒大学计算感知研究所与LIT人工智能实验室的Lukáš Samuel Marták、Patricia Hu和Gerhard Widmer于2025年创建，旨在系统评估自动音乐转录（AMT）模型在分布偏移条件下的鲁棒性。该数据集聚焦于钢琴音乐转录领域，核心研究问题在于探究深度学习模型在面对声学条件与音乐风格变化时的泛化能力。通过构建包含古典、蓝调、摇滚等十种音乐流派的Genre子集、模拟极端音乐结构偏移的Random子集以及基于MAESTRO测试集衍生的MAEtest子集，MDS corpus为分析AMT模型在声学分布偏移与音乐分布偏移下的性能退化提供了标准化基准。该数据集的发布深化了对AMT模型偏见问题的理解，推动了音乐信息检索领域对模型鲁棒性与泛化能力的系统性研究。

当前挑战

MDS corpus针对自动音乐转录领域面临的分布偏移问题，揭示了模型在声学与音乐维度泛化的双重挑战。在领域问题层面，数据集旨在评估AMT模型对声学条件（如录音环境、乐器音色）与音乐风格（如流派、动态范围、复调层次）变化的敏感性，其核心挑战在于克服模型对训练数据（如MAESTRO数据集）的过拟合，从而在真实世界多样化的音乐场景中保持转录精度。构建过程中，研究团队面临数据采集与质量控制的多重困难：需从公开资源中筛选高质量、流派代表性的钢琴MIDI文件，并克服互联网源数据在演奏完整性与音乐结构标注上的不一致性；同时，通过雅马哈Disklavier自动钢琴进行音频录制，以统一声学条件，但受限于实时录制效率与乐器校准的复杂性，限制了数据规模的扩展。此外，随机音符序列的生成需平衡极端分布偏移的模拟与计算可行性，以有效揭示模型在非音乐结构下的性能边界。

常用场景

经典使用场景

在自动音乐转录领域，MDS语料库被广泛用于评估深度学习模型在分布偏移条件下的鲁棒性。该数据集通过精心设计的三个子集——涵盖多样音乐流派、随机音符序列以及MAESTRO测试子集——为研究者提供了一个系统化的基准测试平台。经典应用场景包括分析模型在音色和音乐风格变化下的性能衰减，特别是在处理非古典钢琴音乐或极端非结构化音符序列时，能够揭示模型对训练数据偏好的依赖程度。

实际应用

在实际应用中，MDS语料库可作为音乐信息检索系统的评估工具，用于测试转录模型在真实世界场景中的适应性。例如，在数字音乐教育或自动乐谱生成平台中，该数据集能够验证系统处理不同流派钢琴音乐的能力，确保转录结果在爵士、流行或随机即兴演奏等多样化输入中保持准确性。此外，它还可用于优化音乐制作软件中的转录模块，提升其对非标准录音条件或非传统音乐结构的处理效果。

衍生相关工作

基于MDS语料库的评估框架，衍生了一系列关于转录模型鲁棒性的经典研究。例如，研究者在分析音色偏移对音符偏移检测的影响时，提出了针对性的数据增强策略；而在探索极端音乐分布偏移的实验中，启发了对可微分字典搜索等替代方法的重新评估。这些工作不仅深化了对语料库偏差现象的理解，还促进了新型评估指标——如音乐感知度量——的发展，为后续转录系统的设计提供了理论依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集