TTA-Bench

Name: TTA-Bench
Creator: 南开大学计算机学院, 中国天津; 北京爱壳科技有限公司, 中国北京
Published: 2025-09-02 23:10:09
License: 暂无描述

arXiv2025-09-02 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/datasets/Hui519/TTA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

TTA-Bench是一个用于评估文本到音频（TTA）模型的全面基准数据集，涵盖了功能性、可靠性和社会责任性等方面。数据集包含2999个通过自动化和手动方法生成的多样化提示，旨在对TTA模型进行全面评估。数据集的构建考虑了准确性、效率、泛化、鲁棒性、公平性、偏见和毒性等七个维度，并通过结合客观指标和超过118,000个来自专家和普通用户的注释来进行评估。

TTA-Bench is a comprehensive benchmark dataset for evaluating Text-to-Audio (TTA) models, covering aspects such as functionality, reliability, and social responsibility. It contains 2999 diverse prompts generated via both automated and manual approaches, aiming to conduct comprehensive evaluations of TTA models. The dataset was constructed with seven core dimensions in mind: accuracy, efficiency, generalization, robustness, fairness, bias, and toxicity, and its evaluation is carried out by combining objective metrics with over 118,000 annotations from both experts and general users.

提供机构：

南开大学计算机学院, 中国天津; 北京爱壳科技有限公司, 中国北京

创建时间：

2025-09-02

搜集汇总

数据集介绍

构建方式

在文本到音频生成领域，构建评估基准需兼顾多样性与系统性。TTA-Bench通过自动化与人工协同的方式构建了包含2,999条提示词的评测数据集，涵盖50种场景分类与七项核心维度。具体流程包括从AudioCaps数据集中抽取已验证样本、利用大语言模型生成基于场景模板的提示词，并辅以人工撰写覆盖复杂语义的案例。每个提示词均标注了事件数量与时间关系类型，确保对模型组合推理能力的细粒度评估。针对泛化性测试，通过程序化采样罕见与常见声音标签组合，并转化为符合声学逻辑的虚构场景描述，有效模拟分布外数据场景。

特点

TTA-Bench的突出特点在于其多维度的评估框架设计，首次将功能性质量、可靠性与社会责任纳入统一体系。该基准覆盖准确性、效率、泛化性、鲁棒性、公平性、偏见及毒性七项指标，突破了传统评测仅关注生成质量的局限。数据集提示词兼具语义复杂性与时序逻辑，例如包含并行、序列及混合关系的多事件描述，能够有效检验模型对组合语义的理解能力。此外，通过引入视觉文本转听觉提示的创新方法，增强了数据分布的多样性，并为伦理评估提供了包含五大毒性类别的专项测试集。

使用方法

使用TTA-Bench时需遵循其统一评估协议，该协议支持无参考音频的客观指标与大规模主观标注相结合的双重验证机制。客观评估采用Audiobox-Aesthetic与CLAP评分系统量化内容效用与声学质量，主观评估则通过专家与普通听众的11.8万次细粒度标注获取感知维度数据。具体实施时，首先基于提示词生成音频，随后通过实时因子计算效率指标，利用扰动输入测试鲁棒性，并通过社会属性替换分析公平性。针对毒性检测，采用多数投票机制对生成内容进行三级分类，最终通过维度加权实现模型能力的全景对比。

背景与挑战

背景概述

TTA-Bench由南开大学计算机学院与北京AISHELL科技有限公司联合研发，于2025年正式发布，旨在解决文本到音频生成领域评估体系不完善的核心问题。该数据集聚焦于构建多维评估框架，涵盖功能质量、可靠性与社会责任三大维度，包含2,999个多样化提示词，并整合了超过118,000条人工标注数据。其创新性在于首次将泛化性、鲁棒性、公平性和毒性等伦理指标纳入系统化评估体系，为TTA技术的实际应用提供了全面的性能基准，显著推动了生成式音频模型的标准化发展。

当前挑战

在领域问题层面，TTA-Bench需应对文本到音频生成中语义对齐精度不足、复杂事件时序建模困难等核心挑战，同时需解决模型在分布外数据上的泛化能力薄弱问题。构建过程中面临多模态数据协同标注的复杂性，包括跨领域提示词的语义一致性校验、人工标注过程中主观偏差控制，以及毒性内容边界定义的伦理争议。此外，评估协议设计需平衡客观指标与主观感知的差异，确保在无参考音频场景下仍能实现可靠的多维度量化评估。

常用场景

经典使用场景

在文本到音频生成领域，TTA-Bench作为首个综合性评估基准，通过涵盖功能质量、可靠性和社会责任三大维度，为研究者提供了标准化的模型比较框架。该数据集包含2999个多样化提示，结合客观指标与超过11.8万条人工标注，系统评估了AudioGen、Tango等十种前沿模型的音频生成能力，尤其在语义对齐、时序关系理解等核心任务中展现出权威性。

实际应用

该基准在多媒体内容创作、智能交互系统等场景中具有重要应用价值。通过量化评估模型对复杂提示的响应能力，为影视配乐自动生成、虚拟助手语音合成等产业应用提供了可靠性验证标准；其毒性检测机制可有效防范生成有害音频的风险，对社交媒体内容审核、无障碍语音技术等领域的伦理部署具有指导意义。

衍生相关工作

基于TTA-Bench的评估范式，研究者开发了AudioTime等专注于时序对齐的衍生基准，推动了文本-音频跨模态任务的细分化发展。其构建的扰动测试集被Adaptive Audio Synthesis框架采纳为鲁棒性训练数据，而公平性评估方法则启发了FairSpeech等去偏见算法的创新，形成了以责任伦理为核心的评估生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集