AIME Dataset
收藏arXiv2025-06-24 更新2025-06-28 收录
下载链接:
https://huggingface.co/datasets/disco-eth/AIME
下载链接
链接失效反馈官方服务:
资源简介:
AIME数据集是一个包含6,000首使用12种最先进的音乐生成模型生成的音乐片段的集合。该数据集是在一项大规模的人类评估调查中使用的,该调查涉及2,500名参与者进行的15,600次音频比较,旨在评估人类偏好与现有指标之间的相关性,特别是在文本-音频对齐和音乐质量方面。数据集还包括人类对生成的音乐和文本-音频对齐的评估结果,以促进对人工智能生成音乐的评价研究。
The AIME dataset is a collection of 6,000 music clips generated by 12 state-of-the-art music generation models. This dataset was used in a large-scale human evaluation survey involving 15,600 audio comparisons conducted by 2,500 participants, aiming to assess the correlation between human preferences and existing metrics, particularly in terms of text-audio alignment and music quality. The dataset also includes human evaluation results for both generated music and text-audio alignment, to facilitate research on the evaluation of AI-generated music.
提供机构:
ETH Zurich
创建时间:
2025-06-24
搜集汇总
数据集介绍

构建方式
在音乐生成领域,评估模型生成音乐的质量与文本对齐度一直是一个关键挑战。AIME数据集的构建采用了系统性方法,首先从MTG-Jamendo数据集中筛选出1,248个独特的标签组合,并通过CLAP嵌入的余弦相似度阈值进一步精选出500个具有代表性的音乐描述标签。随后,利用12种先进的音乐生成模型(包括开源模型如MusicGen、Riffusion和商业模型如Suno、Udio)基于这些标签生成了6,000首音乐片段,每段时长限制为10秒以确保一致性。此外,通过大规模人类偏好研究,收集了2,500名参与者对15,600对音乐片段的对比评估,涵盖了音乐偏好和文本-音频对齐度两个维度。
特点
AIME数据集的特点在于其全面性和多样性。数据集不仅涵盖了多种音乐生成模型(包括Transformer、扩散模型和商业模型),还通过人类评估提供了对这些模型生成结果的客观排名。数据集的音乐片段均经过严格的标签筛选和时长控制,确保了数据的质量和一致性。此外,数据集还包含了丰富的人类评估结果,包括音乐偏好和文本-音频对齐度的详细对比数据,为研究者提供了宝贵的参考。数据集的开放性和透明性进一步促进了音乐生成领域的标准化评估。
使用方法
AIME数据集的使用方法灵活多样,适用于音乐生成模型的评估与比较。研究者可以利用数据集中的6,000首生成音乐片段,结合提供的标签和人类评估结果,对模型的音乐质量和文本对齐度进行定量分析。数据集还可用于验证新的评估指标与人类偏好的相关性,例如通过Frechet音频距离(FAD)或CLAP模型的余弦相似度来预测人类评分。此外,数据集中的对比评估数据可用于训练或优化生成模型,提升其与人类偏好的对齐度。数据集已开源,支持后续研究的扩展与验证。
背景与挑战
背景概述
AIME数据集由苏黎世联邦理工学院的研究团队于2025年创建,旨在解决AI音乐生成领域的关键评估难题。该数据集包含12种前沿音乐生成模型产生的6,000首音乐片段,以及15,600组人类偏好对比数据,涉及2,500名参与者的主观评价。其核心研究聚焦于文本-音频对齐度和音乐质量这两个维度,通过建立人类主观评价与客观指标之间的映射关系,为音乐生成模型的性能评估提供了首个基于人类偏好的基准体系。该数据集的发布显著推动了生成音乐评估标准的发展,成为后续研究的重要参考基础。
当前挑战
在领域问题层面,AIME数据集主要应对音乐生成模型评估中主观性与客观指标脱节的挑战,具体表现为:人类对音乐质量的感知难以被传统音频指标准确量化;文本描述与生成音乐的语义一致性缺乏可靠评估标准。在构建过程中,研究团队面临多重技术挑战:需要设计科学的实验方案将主观审美转化为可量化的对比数据;必须平衡生成音乐的多样性与评估一致性;处理商业模型API的访问限制与生成片段标准化问题;开发有效的注意力检测机制以确保大规模众包数据的可靠性。
常用场景
经典使用场景
在音乐生成领域,AIME数据集通过大规模人类偏好研究,为评估AI生成音乐的质量和文本-音频对齐提供了基准。该数据集包含6000首由12种先进音乐生成模型创作的歌曲,以及超过15000对音频比较的人类评价数据,为研究者提供了丰富的实验材料。通过这一数据集,研究者能够系统地比较不同模型在音乐质量和文本对齐方面的表现,从而推动音乐生成技术的发展。
衍生相关工作
AIME数据集衍生了一系列经典研究工作。基于其人类评价数据,研究者提出了改进的FAD-CLAP-MA指标,显著提升了与人类偏好的相关性;在文本-音频对齐领域,LAION-CLAP等模型的优化版本被广泛采用。数据集还催生了多篇顶会论文,如对商业模型Suno和Udio的深入分析,以及针对音乐生成评估框架的系统性改进。
数据集最近研究
最新研究方向
在AI生成音乐领域,AIME数据集的最新研究聚焦于如何将人类主观偏好与客观评价指标有效关联。通过整合12种前沿音乐生成模型产生的6000首曲目及2.5万名参与者的15万次对比评估,该研究首次建立了基于人类偏好的生成模型排名体系。研究发现,商业模型Suno v3.5在音乐质量和文本-音频对齐方面显著优于其他模型,而CLAP等特定指标与人类评判具有较高相关性。这一突破性工作为开发更符合人类感知的音乐评价体系提供了实证基础,其开源数据集正推动着生成式音乐在可解释性评估、跨模态对齐等方向的发展。
相关研究论文
- 1Benchmarking Music Generation Models and Metrics via Human Preference StudiesETH Zurich · 2025年
以上内容由遇见数据集搜集并总结生成



