YourMT3

Name: YourMT3
Creator: 伦敦玛丽女王大学数字音乐中心，华为
Published: 2024-07-06 03:18:33
License: 暂无描述

arXiv2024-07-06 更新2024-07-12 收录

下载链接：

https://github.com/mimbres/YourMT3

下载链接

链接失效反馈

官方服务：

资源简介：

YourMT3数据集由伦敦玛丽女王大学数字音乐中心和华为联合创建，专注于多乐器音乐转录任务。该数据集包含十个公共数据集，涵盖多种音乐类型和乐器，支持模型在不同场景下的训练和测试。数据集的创建过程中采用了多种数据增强技术，如跨数据集的stem增强和音高调整，以提高模型的泛化能力。YourMT3数据集主要应用于音乐信息检索和自动音乐转录领域，旨在解决多乐器音乐转录中的数据稀缺和模型泛化问题。

The YourMT3 dataset was jointly created by the Digital Music Centre at Queen Mary University of London and Huawei, focusing on the task of multi-instrument music transcription. This dataset comprises ten public datasets, covering a wide range of music genres and musical instruments, which enables the training and evaluation of models across diverse scenarios. During its development, multiple data augmentation techniques were employed, including cross-dataset stem augmentation and pitch adjustment, to enhance the generalization ability of models. The YourMT3 dataset is primarily utilized in the fields of music information retrieval and automatic music transcription, with the goal of addressing the issues of data scarcity and insufficient model generalization in multi-instrument music transcription.

提供机构：

伦敦玛丽女王大学数字音乐中心，华为

创建时间：

2024-07-06

原始信息汇总

YourMT3: Multi-task and multi-track music transcription for everyone

最新消息

YourMT3+ (MLSP2024): 论文 Notebook 演示

搜集汇总

数据集介绍

构建方式

YourMT3+数据集构建基于MT3模型的语言标记解码方法，通过采用时频域的分层注意力Transformer和集成专家混合（MoE）来增强编码器。为了解决数据限制，引入了一种新的多通道解码方法，用于使用不完整注释进行训练，并提出了一种跨数据集的茎增强技术。该数据集利用了Queen Mary的Andrena HPC设施和韩国科学与信息通信技术部以及光州市支持的AI工业融合集群。

特点

YourMT3+数据集的主要特点是它能够直接转录人声，无需预先进行语音分离处理。此外，该数据集在十个公共数据集上的基准测试显示，其模型在竞争力上与现有转录模型相当或更优。该数据集还提供了对现有流行音乐数据集的细化注释，这是首次研究多乐器AMT在商业流行音乐上的性能。

使用方法

YourMT3+数据集的使用方法包括数据准备、评估指标、词汇、训练、结果讨论等方面。数据准备包括音频数据转换、茎和混音轨道的处理等。评估指标包括乐器音符起始F1指标、乐器无关音符起始F1和偏移F1指标等。词汇包括MT3 FULL PLUS和MT3 MIDI PLUS两种。训练方面，使用AdamWScale优化器和余弦调度器进行训练。结果讨论包括模型在不同数据集上的性能比较和模型组件分析。

背景与挑战

背景概述

多乐器音乐转录是指将多声部音乐录音转换为分配给每个乐器的乐谱的任务。这一任务对建模来说具有挑战性，因为它需要同时识别多个乐器并转录它们的音高和精确时间，而缺乏完全注释的数据则增加了训练的难度。YourMT3+ 是基于 MT3 的最新语言标记解码方法的增强型多乐器音乐转录模型套件。该模型通过在时频域采用层次注意力转换器并集成专家混合 (MoE) 来加强其编码器。为了解决数据限制问题，我们引入了一种新的多通道解码方法，用于使用不完整注释进行训练，并提出了内部和跨茎增强数据集混合。我们的实验证明了直接语音转录能力，消除了对语音分离预处理器的需求。在十个公共数据集上的基准测试表明，我们的模型与现有的转录模型具有竞争力，甚至优于它们。进一步对流行音乐录音的测试突出了当前模型的局限性。完全可复制的代码和数据集可在 https://github.com/mimbres/YourMT3 获取。

当前挑战

多乐器自动音乐转录 (AMT) 是音乐信息检索 (MIR) 的一个基本任务，旨在将音乐音频输入转换为具有起始时间、结束时间、音高和有时速度等属性的音符序列。输出通常以 MIDI 或钢琴卷符号的形式呈现。AMT 的重要性体现在广泛的应用中，包括交互式音乐系统、自动伴奏生成和音乐表演评估。该研究的核心挑战是多乐器 AMT：从音乐录音中识别和转录各种乐器和人声。近年来，该领域取得了显著进展：MT3 利用了一种类似 MIDI 的解码转换器，而 PerceiverTF 则采用了一种生成传统钢琴卷的光谱注意力转换器。不幸的是，这些模型缺乏完全可复制的代码，这限制了复制和进一步研究。我们的研究利用了 MT3 的复制品，可从头开始训练，并将其称为 YourMT3。基于此，我们提出了 YourMT3+，这是一种混合架构，它结合了先进的架构和训练方法以进一步提高性能。YourMT3+ 及其变体与先前的工作 [4, 5] 在以下几个方面有所不同：编码器：PerceiverTF [5]，它生成钢琴卷，现在使用 MT3 框架进行训练以生成音符事件标记。我们用具有光谱交叉注意 (SCA) 的 PerceiverTF 替换了 MT3 的编码器。此外，用混合专家 (MoE) [7] 替换其前馈网络 (FFN)，称为 YPTF.MoE，显示出有希望的结果。解码器：为歌唱转录进一步定义了标记。我们引入了一种多通道解码器，以替换 MT3 的单通道解码器 [4]。这使任务查询基于训练成为可能，并可以使用部分注释的数据，从而提高了性能。增强：所提出的在线数据增强框架在数据集之间进行了内部和跨茎混合，并进行了音高转换。特别是，跨茎增强允许在没有语音分离前端的情况下转录歌唱和其他乐器。评估：我们的模型在各种多乐器和单乐器数据集上进行了广泛的验证。多乐器 AMT 的一个主要应用是转录流行音乐。我们为现有的流行音乐数据集 [8] 提供了精炼的注释，这是第一个研究多乐器 AMT 在商业流行音乐上的性能的研究。

常用场景

经典使用场景

YourMT3+数据集在多乐器音乐转录任务中具有广泛的应用，旨在将多声部音乐录音转换成分配给每个乐器的乐谱。该数据集基于MT3模型，通过采用时间-频率域中的分层注意力Transformer和混合专家（MoE）来增强编码器，并引入多通道解码方法以训练具有不完整注释的数据。此外，还提出了跨数据集的茎增广，以解决数据集混合问题。实验结果表明，该数据集具有直接语音转录能力，无需语音分离预处理。在十个公开数据集上的基准测试显示，该数据集的性能与现有转录模型相当或优于现有模型。该数据集在流行音乐录音上的进一步测试突出了当前模型的局限性。

衍生相关工作

YourMT3+数据集的提出衍生了一系列相关的研究工作。例如，YMT3和YPTF.MoE+Multi模型分别基于MT3和PerceiverTF模型，通过采用不同的编码器和解码器结构，展示了AMT任务中的不同性能。此外，该数据集的增广方法，如跨数据集的茎增广和音高转换，也为AMT任务中的数据增强提供了新的思路。这些相关工作进一步推动了AMT领域的发展，并为未来的研究提供了新的方向。

数据集最近研究