AudioTrust

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/JusperLee/AudioTrust

下载链接

链接失效反馈

官方服务：

资源简介：

AudioTrust是一个大规模基准测试，旨在评估多模态音频语言模型（ALLMs）的多方面可信度。它包含六个关键维度的专家注释提示，包括幻觉、鲁棒性、认证、隐私、公平性和安全性。数据集格式为WAV，单声道，16kHz，大小约为10.4GB，分布在6个子数据集中。每个样本包括音频、音频路径、推理提示、评估提示和参考答案。

AudioTrust is a large-scale benchmark designed to evaluate the multi-faceted trustworthiness of multimodal audio-language models (ALLMs). It includes expert-annotated prompts across six critical dimensions: hallucination, robustness, authentication, privacy, fairness, and safety. The dataset is in WAV format, featuring single-channel audio and a 16kHz sampling rate, with a total size of approximately 10.4 GB, and is split into 6 sub-datasets. Each sample contains audio, audio path, inference prompt, evaluation prompt, and reference answer.

创建时间：

2025-05-14

原始信息汇总

AudioTrust 数据集概述

数据集基本信息

名称: AudioTrust
用途: 评估多模态音频语言模型(ALLMs)的多方面可信度
语言: 英语
音频格式: WAV格式，单声道，16kHz
数据量: 约10.4GB
子数据集数量: 6个

数据集结构

子数据集分类:
- hallucination
- robustness
- authentication
- privacy
- fairness
- safety
样本结构:
- Audio: 解码后的波形(使用Hugging Face加载器时)
- AudioPath: 原始WAV文件路径
- InferencePrompt: 用于模型响应生成的提示
- EvaluationPrompt: 评估模型使用的提示
- Ref: 用于评分的参考(预期)答案

评估维度

幻觉检测: 检测模型生成内容是否基于音频
鲁棒性评估: 在音频质量下降情况下的性能表现
认证测试: 对说话人欺骗/克隆的抵抗能力
隐私泄露: 是否泄露私人内容
公平性审计: 不同人口统计特征间的响应差异
安全性评估: 是否生成安全、无毒、合法的内容

评估指标

任务	主要指标	描述
幻觉检测	准确率/召回率	响应内容是否基于音频
鲁棒性评估	准确率/Δ分数	音频损坏下的性能下降
认证测试	攻击成功率	抵抗欺骗/语音克隆的能力
隐私泄露	泄露率	模型是否泄露私人内容
公平性审计	偏见指数	不同人口统计特征的响应差异
安全性评估	违规分数	生成不安全或有害内容的程度

使用方法

安装依赖: bash git clone https://github.com/JusperLee/AudioTrust.git cd AudioTrust pip install -r requirments.txt
加载数据集: python from datasets import load_dataset dataset = load_dataset("JusperLee/AudioTrust", split="hallucination")
运行评估: bash

运行推理

bash scripts/hallucination/inference/gemini-2.5-pro.sh

运行评估

bash scripts/hallucination/evaluation/gpt-4o.sh

引用信息

bibtex @misc{audiotrust2025, title={AudioTrust: A Benchmark for Robustness and Hallucination Evaluation in Multimodal Audio Language Models}, author={Kai Li et al.}, year={2025}, howpublished={url{https://github.com/JusperLee/AudioTrust}}, }

联系方式

Kai Li: tsinghua.kaili@gmail.com

搜集汇总

数据集介绍

构建方式

AudioTrust数据集作为评估多模态音频语言模型可信度的基准，其构建过程体现了严谨的学术规范。研究团队通过专家标注的方式，在六大关键维度上精心设计了评估任务，包括幻觉检测、鲁棒性测试等核心指标。数据采集采用标准化流程，所有音频文件统一为16kHz单声道WAV格式，确保数据质量的一致性。评估体系创新性地采用模型间对比范式，通过GPT-4o等大语言模型作为评判标准，构建了双层评估机制。

特点

该数据集最显著的特点是构建了全面的可信度评估体系，覆盖了从内容真实性到伦理安全的完整维度。10.4GB的规模包含六个专业子集，每个样本都包含原始音频、推理提示、评估提示和参考答案等结构化数据。评估框架支持灵活的模型对比实验，既可使用云端API也可离线运行。可视化资产和模块化代码结构大大降低了研究复现的门槛，为音频语言模型的可信度研究提供了标准化平台。

使用方法

使用者可通过Hugging Face平台直接加载数据集子集，或克隆GitHub仓库获取完整评估框架。评估流程分为两个阶段：首先使用目标模型生成响应，随后通过评判模型进行打分。仓库提供了详尽的Shell脚本范例和Python接口，支持主流商业API和本地模型部署。环境配置文档明确列出了在线和离线两种依赖方案，研究者可根据实验需求选择适合的评估模式。整个评估体系设计强调可重复性，所有任务指标都配有标准化的计算脚本。

背景与挑战

背景概述

AudioTrust是由Kai Li等研究人员于2025年提出的多模态音频语言模型(ALLMs)综合评估基准。该数据集由清华大学等机构联合开发，旨在系统评估音频语言模型在六个关键维度的可信赖性：幻觉检测、鲁棒性、身份认证、隐私保护、公平性和安全性。作为首个针对音频模态的大规模可信评估框架，AudioTrust填补了多模态模型评估领域的空白，为提升语音交互系统的可靠性提供了标准化测试平台。数据集包含约10.4GB的专家标注音频样本，采用WAV格式存储，覆盖多样化的现实应用场景。

当前挑战

AudioTrust致力于解决音频语言模型在现实部署中面临的核心挑战：模型生成的幻觉内容与音频输入不一致性问题；在音频质量退化情况下的性能保持能力；对声纹伪造攻击的防御机制；避免泄露音频中的敏感信息；消除对不同人口统计学特征的偏见响应；以及确保生成内容符合安全规范。在构建过程中，研究团队需要克服多模态数据对齐的复杂性，设计跨维度的统一评估指标，并解决大规模音频样本标注的一致性问题。此外，如何建立可靠的模型间评估机制，确保评判结果的客观性也是重要的技术挑战。

常用场景

经典使用场景

在音频大语言模型（ALLMs）的研究领域，AudioTrust数据集被广泛应用于多维度可信度评估。研究者通过该数据集系统性地测试模型在幻觉生成、鲁棒性、身份认证、隐私保护、公平性和安全性等六个关键维度的表现。数据集提供的专家标注提示和标准化评估脚本，使得不同模型间的横向对比成为可能，为学术界建立统一的评估基准提供了重要工具。

解决学术问题

AudioTrust有效解决了多模态音频语言模型缺乏系统性评估框架的学术难题。通过构建覆盖六大可信维度的标准化测试集，该数据集填补了音频模型在对抗性测试、隐私泄露检测和伦理安全评估等方面的研究空白。其创新的模型间互评机制（如采用GPT-4o作为评判模型）为量化模型可信度提供了可复现的度量标准，显著推进了可信人工智能的理论研究进程。

衍生相关工作

基于AudioTrust的基准框架，学术界已衍生出多项创新研究。例如在音频幻觉检测方向，有工作提出基于注意力机制的grounding分数改进方案；在公平性评估领域，研究者开发了针对方言口音的偏差修正算法。数据集还启发了跨模态可信评估体系的构建，推动诞生了VideoTrust等延伸性基准项目，形成可信AI评估的研究谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

AudioTrust

AudioTrust 数据集概述

数据集基本信息

数据集结构

评估维度

评估指标

使用方法

运行推理

运行评估

引用信息

联系方式