MAESTRO

Name: MAESTRO
Creator: 谷歌大脑，DeepMind
Published: 2019-01-18 03:45:00
License: 暂无描述

arXiv2019-01-18 更新2024-06-21 收录

下载链接：

https://g.co/magenta/maestro-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MAESTRO数据集是由谷歌大脑和DeepMind联合创建的，包含超过172小时的钢琴演奏录音，这些录音与MIDI数据精确对齐，精度约为3毫秒。数据集来源于国际钢琴电子竞赛，涵盖了九年的比赛数据，包括音频和MIDI文件，以及详细的元数据。MAESTRO数据集主要用于音乐生成和钢琴音乐建模的研究，旨在解决音乐合成中的结构和时间尺度问题，提供了一个大规模、高质量的音乐数据资源。

The MAESTRO Dataset was co-created by Google Brain and DeepMind. It contains over 172 hours of piano performance recordings that are precisely aligned with MIDI data, with an alignment accuracy of approximately 3 milliseconds. The dataset is sourced from the International Piano-e-Competition, covering nine years of competition data including audio files, MIDI files, and detailed metadata. Primarily utilized for research on music generation and piano music modeling, the MAESTRO Dataset aims to resolve structural and temporal scale challenges in music synthesis, providing a large-scale, high-quality musical data resource.

提供机构：

谷歌大脑，DeepMind

创建时间：

2018-10-30

搜集汇总

数据集介绍

构建方式

MAESTRO数据集的构建方式独具匠心。该数据集由Google Brain和DeepMind的团队共同创建，收集了来自国际钢琴电子竞赛的超过172小时的钢琴演奏录音，这些录音以高精度（约3ms）与音符标签对齐。数据集包含的音频文件均为CD质量或更高，并提供了作曲家、标题和表演年份等元数据信息。为了确保数据集的可用性，团队还进行了音频和MIDI文件的时间对齐、切片和音频增强等处理，以适应不同的训练需求。

特点

MAESTRO数据集具有几个显著特点。首先，它包含的演奏时长和音符数量远超以往的数据集，使得模型训练更为有效。其次，数据集的音频和MIDI文件具有高精度对齐，有助于模型学习音符与音频波形之间的精确对应关系。此外，MAESTRO数据集的曲目范围广泛，涵盖了从17世纪到20世纪初的古典音乐作品，为模型提供了丰富的学习素材。最后，数据集的发布遵循了Creative Commons Attribution Non-Commercial Share-Alike 4.0许可证，为研究人员和开发者提供了便捷的使用条件。

使用方法

MAESTRO数据集的使用方法多样。首先，它可以为音乐自动转录模型提供训练数据，帮助模型学习将音频信号转换为MIDI音符序列。其次，数据集可以用于训练音乐语言模型，使模型能够生成具有长期结构的新音乐作品。此外，MAESTRO数据集还可以用于训练钢琴合成模型，将MIDI音符序列转换为逼真的钢琴音频信号。研究人员可以根据自己的需求，选择合适的模型和训练方法，利用MAESTRO数据集进行音乐生成、转录和合成等方面的研究。

背景与挑战

背景概述

音乐生成模型的研究在近年来取得了显著进展，但直接使用神经网络生成音乐音频仍然是一个具有挑战性的任务。音乐的结构复杂，跨越多个时间尺度，需要同时考虑音高、音色、节奏和歌曲结构等因素。为了克服这一难题，Hawthorne等人于2019年发布了MAESTRO数据集，该数据集包含超过172小时的高精度钢琴演奏录音，并提供了精确对齐的音符标签和音频波形。MAESTRO数据集的发布极大地推动了音乐生成模型的研究，为训练能够转录、作曲和合成音频波形的高保真音乐模型提供了可能。

当前挑战

尽管MAESTRO数据集在音乐生成领域取得了重要突破，但仍面临一些挑战。首先，构建如此大规模的精确对齐数据集是一个复杂且耗时的过程，需要克服技术难题，如音频和MIDI之间的时间对齐和切片。其次，模型训练过程中需要解决音乐结构的长期依赖性问题，以确保生成的音乐在多个时间尺度上保持一致性和连贯性。此外，尽管MAESTRO数据集在钢琴演奏方面取得了显著成果，但将这一方法扩展到其他乐器或多种乐器同时演奏的情况仍然是一个挑战。

常用场景

经典使用场景

MAESTRO数据集，作为MIDI和音频编辑同步轨道和组织的缩写，是一个包含超过172小时钢琴演奏录音的数据集，这些录音与音符标签和音频波形之间具有精细对齐（约3ms）。该数据集的主要使用场景是训练音乐音频模型，特别是那些能够转录、作曲和合成音频波形的模型，这些音频波形具有跨越六个数量级的时间尺度（ms到∼100s）的连贯音乐结构。通过使用音符作为中间表示，可以训练一系列模型，这些模型在各自的领域内都是最先进的，包括编码器、先验和解码器。

解决学术问题

MAESTRO数据集解决了音乐音频生成中的一些关键问题，特别是那些涉及不同时间尺度结构的问题。音乐具有许多离散的结构层次，作曲家创作歌曲、部分和音符，表演者通过在乐器上产生离散的事件来实现这些音符，从而产生声音。音符和声音之间的划分在很多方面与符号语言和言语中的言语划分类似。MAESTRO数据集允许研究人员通过将问题分解为三个单独训练的模块来解决这些问题：一个用于从原始音频中生成符号表示（MIDI）的转录模型，一个基于自注意力的音乐语言模型，用于生成新的MIDI表演，以及一个MIDI条件WaveNet模型，用于生成音频波形。

衍生相关工作

MAESTRO数据集衍生了许多相关的经典工作，包括音乐转录、音乐语言建模和音频合成。例如，Hawthorne等人（2018年）提出了一个名为Onsets and Frames的转录模型，该模型可以生成MIDI表示，并用于训练MAESTRO数据集。Huang等人（2018年）提出了一种基于自注意力的音乐语言模型，该模型可以生成新的MIDI表演，并用于训练MAESTRO数据集。van den Oord等人（2016年）提出了WaveNet模型，该模型可以合成逼真的音频波形，并用于训练MAESTRO数据集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集