T2A-Feedback

Name: T2A-Feedback
Creator: 浙江大学; 香港大学
Published: 2025-05-16 01:59:29
License: 暂无描述

arXiv2025-05-16 更新2025-05-17 收录

下载链接：

https://T2Afeedback.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

T2A-Feedback数据集由浙江大学和香港大学的研究人员创建，旨在提升文本到音频生成模型在处理复杂多事件音频时的基本能力。该数据集包含41,627个文本提示和249,762个生成的音频，每个音频都附有详细的评分。数据集的创建过程中，研究人员利用人工智能反馈学习技术，开发出三个细粒度的音频评分管道，分别评估音频中事件的发生、事件序列的准确性以及音频的声学和和谐质量。通过这些评分管道，研究人员构建了一个大规模的音频偏好数据集，并引入了T2A-EpicBench基准，用于评估文本到音频模型在多事件场景中的高级能力。该数据集可用于提升现有文本到音频生成模型的基本能力，使其在简单和复杂场景中均能取得显著的性能改进。

The T2A-Feedback dataset was developed by researchers from Zhejiang University and The University of Hong Kong, aiming to enhance the core capabilities of text-to-audio generation models when handling complex multi-event audio. This dataset includes 41,627 text prompts and 249,762 generated audio clips, each accompanied by detailed ratings. During the dataset construction process, the researchers leveraged AI feedback learning techniques to develop three fine-grained audio scoring pipelines, which respectively evaluate the occurrence of events in the audio, the accuracy of event sequences, and the acoustic and harmonic quality of the audio. Through these scoring pipelines, the team constructed a large-scale audio preference dataset and introduced the T2A-EpicBench benchmark for evaluating the advanced capabilities of text-to-audio models in multi-event scenarios. This dataset can be used to enhance the fundamental abilities of existing text-to-audio generation models, enabling them to achieve significant performance improvements in both simple and complex scenarios.

提供机构：

浙江大学; 香港大学

创建时间：

2025-05-16

原始信息汇总

T2A-Feedback数据集概述

1. 数据集简介

名称：T2A-FeedBack
目标：通过细粒度AI反馈提升文本到音频(T2A)生成的基础能力
规模：包含41k提示词和249k音频，每个音频附带详细评分

2. 核心评分体系

2.1 事件发生评分(Event Occurrence Score)

功能：验证文本提示中的每个事件是否出现在音频中
示例：
- "Pots and pans rattle in the background"
  - 好样本得分：73.21
  - 差样本得分：8.46
- "A man speaks and bees buzz"
  - 好样本得分：56.53
  - 差样本得分：20.99

2.2 事件序列评分(Event Sequence Score)

功能：检测事件序列与语言描述的偏差
示例：
- "The sizzling sound of oil...followed by the womans voice"
  - 好样本得分：1.00
  - 差样本得分：-1.00
- "Mans voice...followed by...clock ticking...then...car engine"
  - 好样本得分：1.00
  - 差样本得分：0.33

2.3 声学和谐波质量评分(Acoustic & Harmonic Quality)

功能：评估生成音频的整体声学和谐波质量
评分等级：1-4分(4分为最佳)
示例：
- 4分样本："An adult male is speaking, and bees are buzzing"
- 1分样本："A baby is crying and a person sneezes then another person speaks"

3. 评估基准

T2A-EpicBench：专注于长描述、多事件和叙事场景的基准测试

4. 应用效果

在AudioCaps测试集和EpicBench上均显示出显著改进
示例提示：
- AudioCaps："A car screeches loudly as a man speaks over an intercom"
- EpicBench："In a serene garden, the gentle rustle of leaves dances in the breeze..."

搜集汇总

数据集介绍

构建方式

T2A-Feedback数据集的构建采用了多模态生成与AI反馈相结合的创新方法。研究团队首先通过大型语言模型对AudioCaps数据集中的文本提示进行语义扩展和事件分解，生成41,627条涵盖单事件和多事件的多样化音频描述。随后利用Make-an-Audio2、AudioLDM2和Tango2三种先进音频生成模型，为每个提示生成6个候选音频，共产生249,762个音频样本。核心创新在于开发了三个细粒度AI评分管道：事件发生评分（EOS）通过CLAP空间的事件级音频-文本匹配检测遗漏事件；事件序列评分（ESS）采用Kendall τ系数分析文本与音频事件时序一致性；声学和谐评分（AHQ）基于2,000个人工标注样本训练的线性预测器评估音频质量。

特点

该数据集具有三个显著特征：细粒度评估体系通过EOS、ESS、AHQ三维评分实现超越CLAP的精细分析能力，其与人类评分的相关性达0.786-0.90；规模优势体现为24.9万音频样本覆盖41.6K提示词，是当前最大的音频偏好数据集；场景多样性包含简单事件（AudioCaps）和复杂叙事（自建T2A-EpicBench）双重评估维度。特别值得注意的是，数据分布呈现高斯曲线特征，EOS和AHQ分数集中在中值区间，而ESS因多数描述含1-2个事件呈现双峰分布，这种差异化分布为偏好学习提供了均衡的正负样本。

使用方法

该数据集主要支持三种应用范式：作为训练数据时，可通过DPO或RAFT等偏好优化算法微调生成模型，实验表明能使Make-an-Audio2在AudioCaps测试集的EOS提升17.9%，在叙事型T2A-EpicBench基准的human偏好胜率达68%；作为评估工具时，三个评分管道可替代传统FAD/CLAP指标，其事件检出准确率（AudioCaps 90.9%）和时序识别F1值（0.851）显著优于基线方法；研究应用方面，配套发布的T2A-EpicBench包含100个平均54.8词的长文本提示，为复杂场景生成提供标准化测试环境。使用时需注意音频生成采用100步DDIM采样，分类器引导尺度固定为4.0以保证结果可比性。

背景与挑战

背景概述

T2A-Feedback数据集由浙江大学和香港大学的研究团队于2025年提出，旨在解决文本到音频（Text-to-Audio, T2A）生成领域中的核心问题：如何生成符合复杂多事件描述的和谐音频。该数据集通过细粒度的AI反馈学习，提升了模型在事件发生、事件序列和声学和谐质量三个基本能力上的表现。T2A-Feedback包含41,627条文本提示和249,762个生成的音频，每条音频均附有详细评分，为T2A生成模型的优化提供了重要数据支持。该数据集的推出显著推动了T2A生成技术在音乐、广告和视频音频生成等高级应用中的发展。

当前挑战

T2A-Feedback数据集面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，现有T2A生成模型难以准确生成包含所有描述事件、事件顺序正确且声学和谐的复杂音频，尤其是在叙事性和多事件场景中表现不佳。在构建过程中，由于音频数据的稀缺性和人工标注的高成本，大规模收集音频偏好数据极为困难。此外，开发能够准确评估事件发生、事件序列和声学和谐质量的自动化评分管道也是一项技术挑战。这些挑战需要通过创新的AI反馈机制和高效的数据标注框架来解决。

常用场景

经典使用场景

T2A-Feedback数据集在文本到音频生成领域中被广泛应用于评估和改进模型的三大核心能力：事件发生提示跟随、事件序列提示跟随以及声学和谐波质量。通过精细化的AI评分管道，该数据集能够准确识别音频中是否包含所有描述的事件、事件顺序是否正确以及音频的整体和谐度。这使得T2A-Feedback成为优化生成模型在多事件复杂场景下表现的重要工具。

解决学术问题

T2A-Feedback数据集解决了当前文本到音频生成模型在处理复杂多事件音频时的主要挑战，包括无法完整生成所有描述事件、事件顺序不准确以及音频质量低下的问题。通过引入事件级评分机制，该数据集显著提升了模型在事件发生和序列跟随方面的能力，同时改进了音频的声学和谐波质量。这一进展为文本到音频生成领域提供了更可靠的评估标准和优化方向。

衍生相关工作

T2A-Feedback数据集衍生了一系列相关研究，包括基于AI反馈的音频生成模型优化、多事件音频生成的评估基准构建以及声学质量预测器的开发。例如，T2A-EpicBench作为该数据集的衍生基准，专注于评估模型在长文本和多事件场景下的表现。此外，许多研究利用该数据集的评分管道，进一步改进了文本到音频生成模型的提示跟随能力和音频质量。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集