大规模歌词-旋律配对数据集

Name: 大规模歌词-旋律配对数据集
Creator: 浙江大学计算机科学与技术学院, 广东OPPO移动通信有限公司AI中心, 浙江大学长三角创新中心
Published: 2024-12-24 10:30:07
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18107v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由浙江大学和OPPO联合构建，包含超过20万首英文歌曲的歌词与旋律配对数据，旨在支持歌词到旋律的自动生成任务。数据集基于MelodyNet构建，涵盖了丰富的歌词与旋律之间的对齐和和谐关系。数据集的创建过程包括从现有音乐资源中提取歌词和旋律信息，并通过统一的符号化表示方法进行编码。该数据集的应用领域主要集中在音乐生成和人工智能辅助作曲，旨在解决歌词与旋律之间的复杂对齐和和谐建模问题，提升自动生成旋律的质量和多样性。

This dataset was jointly constructed by Zhejiang University and OPPO, comprising paired lyrics and melody data from over 200,000 English songs, with the goal of supporting automatic melody generation tasks conditioned on input lyrics. Built upon MelodyNet, this dataset covers abundant alignment and harmonic relationships between lyrics and melodies. The dataset construction workflow includes extracting lyrics and melody information from existing music resources, followed by encoding the extracted data using a unified symbolic representation approach. Its primary application scenarios lie in music generation and AI-assisted music composition, where it aims to address the complex alignment and harmonic modeling challenges between lyrics and melodies, thereby improving the quality and diversity of automatically generated melodies.

提供机构：

浙江大学计算机科学与技术学院, 广东OPPO移动通信有限公司AI中心, 浙江大学长三角创新中心

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

大规模歌词-旋律配对数据集的构建基于MelodyNet提供的原始MIDI数据，经过歌词处理、旋律处理、歌词-旋律对齐处理以及去重处理四个阶段。首先，歌词处理阶段通过保留英文字母和标点符号，并将文本转换为小写，确保歌词的纯净性。其次，旋律处理阶段提取4/4拍号且节奏恒定的旋律，并进行音高调整和音符量化，以适应人声范围。接着，歌词-旋律对齐阶段将每个歌词的开始时间与最近的音符对齐，确保歌词与旋律的精确匹配。最后，通过哈希值对处理后的数据集进行内部和外部去重，最终构建了包含206,884首英文MIDI歌曲的数据集，总时长超过4,921小时。

特点

该数据集的特点在于其丰富的歌词-旋律对齐信息，涵盖了从单词到音符的一对一和一对多对齐关系。通过对音高、时长、音符间隔（IOI）以及每个单词对应的音符数量的分布分析，数据集展示了多样化的音乐属性和复杂的对齐模式。特别是，约20%的单词对应多个音符，这为模型捕捉歌词与旋律之间的复杂关系提供了重要支持。此外，数据集中的音符音高主要分布在48到72之间，且包含三连音等复杂节奏，进一步增强了数据集在旋律生成任务中的实用性。

使用方法

该数据集主要用于歌词到旋律生成任务的预训练和微调。在预训练阶段，模型通过多任务预训练框架，结合层次化的空白填充目标（n-gram、短语和长跨度），学习歌词与旋律之间的多层次对齐和和谐关系。微调阶段则采用因果语言建模，模型从左到右依次预测下一个音符，生成与歌词相匹配的旋律。此外，数据集还可用于评估生成旋律的质量，通过客观指标（如音高、时长、IOI分布相似性）和主观评分（如旋律丰富性、一致性、可唱性）来衡量模型在歌词-旋律对齐和和谐性方面的表现。

背景与挑战

背景概述

大规模歌词-旋律配对数据集由浙江大学的Jiaxing Yu等人于2024年提出，旨在解决歌词到旋律生成中的核心问题，即歌词与旋律之间的复杂关联。该数据集包含超过20万首英文歌曲，涵盖了歌词与旋律的多种对齐方式，包括一对一和一对多的对齐。SongGLM系统通过引入二维对齐编码和多任务预训练框架，显著提升了歌词与旋律之间的对齐和和谐性。该数据集的构建不仅推动了自动音乐生成领域的发展，还为歌词与旋律的复杂关系建模提供了新的研究视角。

当前挑战

该数据集面临的挑战主要集中在两个方面：首先，歌词与旋律的对齐建模问题，现有方法通常简化为一音节/词对一音符的对齐，导致对齐精度较低；其次，歌词与旋律的和谐建模问题，现有方法依赖于中间模板或严格规则，限制了模型的生成多样性和能力。此外，数据集的构建过程中也面临数据质量、对齐复杂性以及大规模数据处理的技术挑战。这些挑战需要通过更精细的对齐编码和创新的预训练框架来解决，以确保生成的旋律与歌词在节奏、音高和结构上的一致性。

常用场景

经典使用场景

大规模歌词-旋律配对数据集在歌词到旋律生成任务中具有经典的使用场景。该数据集通过提供超过20万首英文歌曲的歌词与旋律配对，为模型训练和微调提供了丰富的资源。其核心应用场景在于自动生成与给定歌词相匹配的旋律，尤其是在音乐创作、自动作曲和音乐信息检索领域。通过该数据集，研究者能够训练出能够捕捉歌词与旋律之间复杂关联的模型，从而生成具有高度一致性和和谐性的旋律。

衍生相关工作

该数据集衍生了一系列经典的相关工作，特别是在歌词到旋律生成领域。例如，基于该数据集的研究提出了SongGLM系统，该系统通过二维对齐编码和多任务预训练框架，显著提升了歌词与旋律的对齐和和谐性。此外，该数据集还启发了其他研究，如ReLyMe系统，该系统通过引入歌词与旋律之间的关系，进一步优化了生成旋律的质量。这些工作不仅推动了歌词到旋律生成技术的发展，还为其他自动音乐生成任务提供了新的思路和方法。

数据集最近研究