AIME Dataset

Name: AIME Dataset
Creator: ETH Zurich
Published: 2025-06-24 04:01:29
License: 暂无描述

arXiv2025-06-24 更新2025-06-28 收录

下载链接：

https://huggingface.co/datasets/disco-eth/AIME

下载链接

链接失效反馈

官方服务：

资源简介：

AIME数据集是一个包含6,000首使用12种最先进的音乐生成模型生成的音乐片段的集合。该数据集是在一项大规模的人类评估调查中使用的，该调查涉及2,500名参与者进行的15,600次音频比较，旨在评估人类偏好与现有指标之间的相关性，特别是在文本-音频对齐和音乐质量方面。数据集还包括人类对生成的音乐和文本-音频对齐的评估结果，以促进对人工智能生成音乐的评价研究。

The AIME dataset is a collection of 6,000 music clips generated by 12 state-of-the-art music generation models. This dataset was used in a large-scale human evaluation survey involving 15,600 audio comparisons conducted by 2,500 participants, aiming to assess the correlation between human preferences and existing metrics, particularly in terms of text-audio alignment and music quality. The dataset also includes human evaluation results for both generated music and text-audio alignment, to facilitate research on the evaluation of AI-generated music.

提供机构：

ETH Zurich

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

在音乐生成领域，评估模型生成音乐的质量与文本对齐度一直是一个关键挑战。AIME数据集的构建采用了系统性方法，首先从MTG-Jamendo数据集中筛选出1,248个独特的标签组合，并通过CLAP嵌入的余弦相似度阈值进一步精选出500个具有代表性的音乐描述标签。随后，利用12种先进的音乐生成模型（包括开源模型如MusicGen、Riffusion和商业模型如Suno、Udio）基于这些标签生成了6,000首音乐片段，每段时长限制为10秒以确保一致性。此外，通过大规模人类偏好研究，收集了2,500名参与者对15,600对音乐片段的对比评估，涵盖了音乐偏好和文本-音频对齐度两个维度。

特点

AIME数据集的特点在于其全面性和多样性。数据集不仅涵盖了多种音乐生成模型（包括Transformer、扩散模型和商业模型），还通过人类评估提供了对这些模型生成结果的客观排名。数据集的音乐片段均经过严格的标签筛选和时长控制，确保了数据的质量和一致性。此外，数据集还包含了丰富的人类评估结果，包括音乐偏好和文本-音频对齐度的详细对比数据，为研究者提供了宝贵的参考。数据集的开放性和透明性进一步促进了音乐生成领域的标准化评估。

使用方法

AIME数据集的使用方法灵活多样，适用于音乐生成模型的评估与比较。研究者可以利用数据集中的6,000首生成音乐片段，结合提供的标签和人类评估结果，对模型的音乐质量和文本对齐度进行定量分析。数据集还可用于验证新的评估指标与人类偏好的相关性，例如通过Frechet音频距离（FAD）或CLAP模型的余弦相似度来预测人类评分。此外，数据集中的对比评估数据可用于训练或优化生成模型，提升其与人类偏好的对齐度。数据集已开源，支持后续研究的扩展与验证。

背景与挑战

背景概述

AIME数据集由苏黎世联邦理工学院的研究团队于2025年创建，旨在解决AI音乐生成领域的关键评估难题。该数据集包含12种前沿音乐生成模型产生的6,000首音乐片段，以及15,600组人类偏好对比数据，涉及2,500名参与者的主观评价。其核心研究聚焦于文本-音频对齐度和音乐质量这两个维度，通过建立人类主观评价与客观指标之间的映射关系，为音乐生成模型的性能评估提供了首个基于人类偏好的基准体系。该数据集的发布显著推动了生成音乐评估标准的发展，成为后续研究的重要参考基础。

当前挑战

在领域问题层面，AIME数据集主要应对音乐生成模型评估中主观性与客观指标脱节的挑战，具体表现为：人类对音乐质量的感知难以被传统音频指标准确量化；文本描述与生成音乐的语义一致性缺乏可靠评估标准。在构建过程中，研究团队面临多重技术挑战：需要设计科学的实验方案将主观审美转化为可量化的对比数据；必须平衡生成音乐的多样性与评估一致性；处理商业模型API的访问限制与生成片段标准化问题；开发有效的注意力检测机制以确保大规模众包数据的可靠性。

常用场景

经典使用场景

在音乐生成领域，AIME数据集通过大规模人类偏好研究，为评估AI生成音乐的质量和文本-音频对齐提供了基准。该数据集包含6000首由12种先进音乐生成模型创作的歌曲，以及超过15000对音频比较的人类评价数据，为研究者提供了丰富的实验材料。通过这一数据集，研究者能够系统地比较不同模型在音乐质量和文本对齐方面的表现，从而推动音乐生成技术的发展。

衍生相关工作

AIME数据集衍生了一系列经典研究工作。基于其人类评价数据，研究者提出了改进的FAD-CLAP-MA指标，显著提升了与人类偏好的相关性；在文本-音频对齐领域，LAION-CLAP等模型的优化版本被广泛采用。数据集还催生了多篇顶会论文，如对商业模型Suno和Udio的深入分析，以及针对音乐生成评估框架的系统性改进。

数据集最近研究