AudioTrust
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://github.com/JusperLee/AudioTrust
下载链接
链接失效反馈官方服务:
资源简介:
AudioTrust是一个专门为评估音频大型语言模型(ALLM)的多方面可信度而设计的评估框架和基准。它包含超过4420个音频/文本样本的数据集,这些样本来自现实世界的场景,如日常对话、紧急电话和语音助手交互,旨在探索ALLM在不同场景下的可信度。数据集支持18种不同的实验设置,以评估六个关键维度:公平性、幻觉、安全性、隐私、鲁棒性和身份验证。该基准还设计了9个音频特定的评估指标,并使用大规模自动化流程对模型输出进行客观和可扩展的评分。
AudioTrust is an evaluation framework and benchmark specifically designed for assessing the multi-faceted trustworthiness of audio large language models (ALLMs). It includes a dataset of over 4,420 paired audio-text samples sourced from real-world scenarios including daily conversations, emergency calls, and voice assistant interactions, with the goal of investigating the trustworthiness of ALLMs across various contexts. The dataset supports 18 distinct experimental setups for evaluating six core dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. This benchmark additionally develops 9 audio-specific evaluation metrics, and leverages large-scale automated pipelines to perform objective and scalable scoring of model outputs.
提供机构:
Nanyang Technological University, Tsinghua University, BNBU, Waseda University, HUST, BJTU, Hong Kong Polytechnic University, University of Rochester, QHU, Zhejiang University, Shanghai Jiao Tong University, National Univeristy of Singapore, CAS, Hong Kong University of Science and Technology (Guangzhou), Bytedance, The Chinese University of Hong Kong (Shenzhen), ACM Member
创建时间:
2025-05-22
原始信息汇总
AudioTrust 数据集概述
数据集基本信息
- 名称: AudioTrust
- 用途: 评估多模态音频语言模型(ALLMs)的多维度可信度
- 语言: 英语
- 音频格式: WAV格式,单声道,16kHz
- 大小: 约10.4GB(包含6个子数据集)
数据集结构
-
子数据集分类:
- Hallucination(幻觉)
- Robustness(鲁棒性)
- Authentication(认证)
- Privacy(隐私)
- Fairness(公平性)
- Safety(安全性)
-
样本组成:
Audio: 解码后的波形(使用Hugging Face加载器时)AudioPath: 原始WAV文件路径InferencePrompt: 用于模型响应生成的提示EvaluationPrompt: 评估模型使用的提示Ref: 用于评分的参考(预期)答案
评估维度
- 幻觉检测: 评估响应内容是否基于音频
- 鲁棒性评估: 在音频质量下降情况下的性能表现
- 认证测试: 抵抗欺骗/语音克隆的能力
- 隐私泄露: 检测模型是否泄露私人内容
- 公平性审计: 不同人口统计特征间的响应差异
- 安全性评估: 生成内容是否安全无害
评估指标
| 任务类型 | 主要指标 | 说明 |
|---|---|---|
| 幻觉检测 | 准确率/召回率 | 响应内容与音频的关联性 |
| 鲁棒性评估 | 准确率/Δ分数 | 音频损坏下的性能下降程度 |
| 认证测试 | 攻击成功率 | 抵抗欺骗/克隆的能力 |
| 隐私泄露 | 泄露率 | 私人内容泄露情况 |
| 公平性审计 | 偏见指数 | 不同人口统计特征的响应差异 |
| 安全性评估 | 违规分数 | 生成有害内容的程度 |
获取方式
- Hugging Face地址: https://huggingface.co/datasets/JusperLee/AudioTrust
- 加载代码: python from datasets import load_dataset dataset = load_dataset("JusperLee/AudioTrust", split="hallucination")
引用信息
bibtex @misc{audiotrust2025, title={AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models}, author={Kai Li et al.}, year={2025}, howpublished={url{https://github.com/JusperLee/AudioTrust}}, }
联系方式
- Kai Li: tsinghua.kaili@gmail.com
- Xinfeng Li: lxfmakeit@gmail.com
搜集汇总
数据集介绍

构建方式
AudioTrust数据集构建于现实世界场景,包括日常对话、紧急呼叫和语音助手交互等,精心收集了超过4,420个音频/文本样本。通过结合GPT-4o生成文本内容,并利用F5-TTS模型转换为音频,确保了数据的多样性和真实性。数据集特别设计用于探究音频大型语言模型(ALLMs)在多方面的可信度问题,如公平性、幻觉、安全性、隐私性、鲁棒性和认证性。
特点
AudioTrust数据集的特点在于其全面性和针对性,覆盖了ALLMs的六个关键可信度维度。数据集包含多样化的音频样本,模拟了高风险的现实场景,如社会工程攻击、隐私泄露和认证绕过等。此外,数据集还设计了18种不同的实验设置和9种音频特定的评估指标,以全面评估模型的性能。
使用方法
AudioTrust数据集的使用方法包括通过大规模自动化流程对模型输出进行客观和可扩展的评分。研究者可以利用该数据集评估ALLMs在多种高风险音频场景下的表现,揭示模型的可信度边界和局限性。数据集的使用还包括对模型在公平性、幻觉识别、安全性、隐私保护、鲁棒性和认证性等方面的详细分析,为未来音频模型的安全和可信部署提供宝贵见解。
背景与挑战
背景概述
AudioTrust是由Nanyang Technological University、Tsinghua University等多家研究机构于2025年联合推出的首个面向音频大语言模型(ALLMs)的多维度可信度评估基准框架。该数据集包含4,420个从真实场景(如日常对话、紧急呼叫、语音助手交互等)采集的音频/文本样本,系统性地评估了ALLMs在公平性、幻觉识别、安全性、隐私保护、鲁棒性和身份认证等六个关键维度的表现。其创新性在于首次全面考虑了音频模态特有的时空模式、情感依赖等特性,填补了现有评估框架主要关注文本模态的空白,为ALLMs的安全可信部署提供了重要参考。
当前挑战
AudioTrust面临的核心挑战体现在:1) 领域问题挑战:解决音频模态特有的可信度风险,包括语音隐私泄露、声纹伪造、环境声学干扰等跨模态安全问题;2) 构建过程挑战:需设计18种实验设置来覆盖6个评估维度,包括处理音频的时间频率模式复杂性(如对抗样本生成需保持听觉不可察觉性)、平衡敏感属性标注(如7种人口统计学特征的公平性测试),以及开发9个音频专用指标(如跨模态词错误率)来量化模型行为。此外,数据采集需协调多语言、多场景的真实语音样本,并确保伦理合规性。
常用场景
经典使用场景
AudioTrust数据集专为评估音频大语言模型(ALLMs)的多维可信度而设计,广泛应用于学术研究和工业实践中。其经典使用场景包括模型公平性测试、幻觉检测、安全性评估、隐私保护分析、鲁棒性验证以及身份认证测试。通过模拟真实世界中的对话、紧急呼叫和语音助手交互等情境,该数据集能够全面考察模型在高风险环境下的表现。
实际应用
在实际应用中,AudioTrust为语音助手、智能客服、紧急响应系统等关键场景的模型部署提供了可靠性验证工具。例如,金融机构可利用其评估语音认证系统抗声纹克隆攻击的能力;医疗领域通过隐私泄漏测试确保患者语音数据的安全性;智能家居厂商则依赖鲁棒性评估优化多说话人环境下的交互体验。
衍生相关工作
基于AudioTrust的评估框架,研究者已衍生出多项创新工作,包括:1)SafeEar针对音频深度伪造的隐私保护检测系统;2)AdvWave提出的对抗性音频攻击防御方案;3)CEB组合式公平性评估基准。这些工作进一步扩展了音频模型在安全、伦理和跨模态对齐等方向的研究边界。
以上内容由遇见数据集搜集并总结生成



