MusicCaps

Name: MusicCaps
Creator: 伦敦玛丽女王大学数字音乐中心, 英国
Published: 2025-05-01 01:21:04
License: 暂无描述

arXiv2025-05-01 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21815v1

下载链接

链接失效反馈

官方服务：

资源简介：

MusicCaps数据集是一个用于音乐生成模型评估的基准数据集，包含5521个音乐描述提示，以及由不同音乐生成模型生成的音乐样本。数据集旨在支持对音乐生成模型进行透明、可重复和以人为中心的评估，以更好地反映人类审美判断。该数据集由伦敦玛丽女王大学数字音乐中心的研究团队创建，并通过比较实验评估了五个最先进的音乐生成模型，包括JASCO、Stable-Audio-Open、MusicGen、YuE和DiffRhythm，以了解不同评价方法的差异和偏差。研究结果表明，JASCO在内容有用性和制作质量方面表现出色，而DiffRhythm在制作复杂性方面表现突出。该数据集的发布旨在推动对生成模型进行更全面和系统的评估，以更好地反映人类偏好。

MusicCaps is a benchmark dataset for evaluating music generation models. It encompasses 5521 music description prompts and music samples generated by diverse music generation models. The dataset is developed to support transparent, reproducible, and human-centric evaluation of music generation models, thereby better reflecting human aesthetic judgments. This dataset was created by a research team from the Centre for Digital Music at Queen Mary University of London. Via comparative experiments, the team evaluated five state-of-the-art music generation models including JASCO, Stable-Audio-Open, MusicGen, YuE, and DiffRhythm, to investigate the discrepancies and biases across different evaluation methodologies. The research findings demonstrate that JASCO excels in both content usefulness and production quality, while DiffRhythm stands out in terms of production complexity. The release of the MusicCaps dataset is intended to facilitate more comprehensive and systematic evaluation of music generative models, ultimately better aligning with human preferences.

提供机构：

伦敦玛丽女王大学数字音乐中心, 英国

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

MusicCaps数据集的构建基于LP-MusicCaps提示库，通过整合5,521个音乐描述标签作为生成文本提示，覆盖多样化的音乐风格和情感表达。研究团队采用多模型并行生成策略，包括JASCO、Stable-Audio-Open等五种前沿文本到音乐生成模型，并引入人工作曲的真实音乐片段作为基准参照。数据构建过程中特别设计了跨模态输入支持，例如为需歌词输入的模型配备GPT-4生成的50组歌词，为需要和弦轨道的模型提供100组符号化和声序列，确保生成样本的多样性和结构完整性。

使用方法

研究者可通过该数据集进行三类核心分析：首先，利用美学评分矩阵横向比较不同生成模型在音乐质量各维度的表现差异；其次，基于MAD和KAD指标研究生成音乐与人类音乐的分布对齐特性，这对改进生成模型的训练目标具有指导意义；最后，通过语义聚类分析可探究特定音乐类型（如电子乐、Lo-fi等）与美学评分的内在关联。数据集配套提供了完整的提示文本、生成参数和评估元数据，支持端到端的可复现研究。建议使用时应充分考虑不同模型输入条件（如和弦、鼓轨等）对结果的影响，并参照论文中的标准化评估流程进行操作。

背景与挑战

背景概述

MusicCaps数据集由伦敦玛丽女王大学数字音乐中心、Meta Reality Labs及萨里大学CVSSP中心的研究团队于2025年发布，旨在解决生成式音乐模型评估中人类偏好与自动指标脱节的核心问题。该数据集作为文本到音乐生成领域的基准工具，整合了多模型生成的音乐样本及人类美学评分，涵盖内容享受度、制作复杂度等四个感知维度。其创新性在于首次系统化研究了音乐生成中的人类偏好对齐问题，为跨模态生成模型的评估提供了实证基础。

当前挑战

数据集面临双重挑战：在领域问题上，现有自动评估指标（如MAD、KAD）与人类主观评分存在显著不一致性，难以准确捕捉音乐创作的审美复杂性；在构建过程中，需克服多模态数据对齐的困难——包括文本描述与生成音频的语义匹配、不同模型输出长度的标准化处理，以及人类评分者主观偏差导致的标注不一致问题。此外，数据集的语义覆盖范围受限于原始音乐标签的分布，可能无法全面反映文化多样性带来的审美差异。

常用场景

经典使用场景

MusicCaps数据集在音乐生成领域被广泛用于评估文本到音乐生成系统的性能。通过提供大量人类创作的音乐样本及其对应的文本描述，该数据集为研究者提供了一个基准，用于比较不同生成模型在音乐质量和人类偏好方面的表现。特别是在评估模型的感知质量和分布相似性时，MusicCaps数据集成为不可或缺的资源。

解决学术问题

MusicCaps数据集解决了音乐生成领域中自动评估指标与人类偏好之间的不一致性问题。通过提供人类标注的音乐样本和详细的文本描述，该数据集帮助研究者开发更准确的评估方法，如Mauve Audio Divergence (MAD)和Kernel Audio Distance (KAD)。这些方法能够更好地反映人类对音乐质量的感知，从而推动生成模型的优化。

实际应用

在实际应用中，MusicCaps数据集被用于训练和优化多种音乐生成模型，如JASCO、Stable-Audio-Open和MusicGen。这些模型利用数据集中的音乐样本和文本描述，生成高质量的音乐内容，广泛应用于音乐创作、广告配乐和娱乐产业。数据集的多样性和丰富性使其成为实际应用中不可或缺的工具。

数据集最近研究