five

AudioTrust

收藏
github2025-05-16 更新2025-05-17 收录
下载链接:
https://github.com/JusperLee/AudioTrust
下载链接
链接失效反馈
官方服务:
资源简介:
AudioTrust是一个大规模基准测试,旨在评估多模态音频语言模型(ALLMs)的多方面可信度。它包含六个关键维度的专家注释提示,包括幻觉、鲁棒性、认证、隐私、公平性和安全性。数据集格式为WAV,单声道,16kHz,大小约为10.4GB,分布在6个子数据集中。每个样本包括音频、音频路径、推理提示、评估提示和参考答案。

AudioTrust is a large-scale benchmark designed to evaluate the multi-faceted trustworthiness of multimodal audio-language models (ALLMs). It includes expert-annotated prompts across six critical dimensions: hallucination, robustness, authentication, privacy, fairness, and safety. The dataset is in WAV format, featuring single-channel audio and a 16kHz sampling rate, with a total size of approximately 10.4 GB, and is split into 6 sub-datasets. Each sample contains audio, audio path, inference prompt, evaluation prompt, and reference answer.
创建时间:
2025-05-14
原始信息汇总

AudioTrust 数据集概述

数据集基本信息

  • 名称: AudioTrust
  • 用途: 评估多模态音频语言模型(ALLMs)的多方面可信度
  • 语言: 英语
  • 音频格式: WAV格式,单声道,16kHz
  • 数据量: 约10.4GB
  • 子数据集数量: 6个

数据集结构

  • 子数据集分类:

    • hallucination
    • robustness
    • authentication
    • privacy
    • fairness
    • safety
  • 样本结构:

    • Audio: 解码后的波形(使用Hugging Face加载器时)
    • AudioPath: 原始WAV文件路径
    • InferencePrompt: 用于模型响应生成的提示
    • EvaluationPrompt: 评估模型使用的提示
    • Ref: 用于评分的参考(预期)答案

评估维度

  1. 幻觉检测: 检测模型生成内容是否基于音频
  2. 鲁棒性评估: 在音频质量下降情况下的性能表现
  3. 认证测试: 对说话人欺骗/克隆的抵抗能力
  4. 隐私泄露: 是否泄露私人内容
  5. 公平性审计: 不同人口统计特征间的响应差异
  6. 安全性评估: 是否生成安全、无毒、合法的内容

评估指标

任务 主要指标 描述
幻觉检测 准确率/召回率 响应内容是否基于音频
鲁棒性评估 准确率/Δ分数 音频损坏下的性能下降
认证测试 攻击成功率 抵抗欺骗/语音克隆的能力
隐私泄露 泄露率 模型是否泄露私人内容
公平性审计 偏见指数 不同人口统计特征的响应差异
安全性评估 违规分数 生成不安全或有害内容的程度

使用方法

  1. 安装依赖: bash git clone https://github.com/JusperLee/AudioTrust.git cd AudioTrust pip install -r requirments.txt

  2. 加载数据集: python from datasets import load_dataset dataset = load_dataset("JusperLee/AudioTrust", split="hallucination")

  3. 运行评估: bash

    运行推理

    bash scripts/hallucination/inference/gemini-2.5-pro.sh

    运行评估

    bash scripts/hallucination/evaluation/gpt-4o.sh

引用信息

bibtex @misc{audiotrust2025, title={AudioTrust: A Benchmark for Robustness and Hallucination Evaluation in Multimodal Audio Language Models}, author={Kai Li et al.}, year={2025}, howpublished={url{https://github.com/JusperLee/AudioTrust}}, }

联系方式

  • Kai Li: tsinghua.kaili@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
AudioTrust数据集作为评估多模态音频语言模型可信度的基准,其构建过程体现了严谨的学术规范。研究团队通过专家标注的方式,在六大关键维度上精心设计了评估任务,包括幻觉检测、鲁棒性测试等核心指标。数据采集采用标准化流程,所有音频文件统一为16kHz单声道WAV格式,确保数据质量的一致性。评估体系创新性地采用模型间对比范式,通过GPT-4o等大语言模型作为评判标准,构建了双层评估机制。
特点
该数据集最显著的特点是构建了全面的可信度评估体系,覆盖了从内容真实性到伦理安全的完整维度。10.4GB的规模包含六个专业子集,每个样本都包含原始音频、推理提示、评估提示和参考答案等结构化数据。评估框架支持灵活的模型对比实验,既可使用云端API也可离线运行。可视化资产和模块化代码结构大大降低了研究复现的门槛,为音频语言模型的可信度研究提供了标准化平台。
使用方法
使用者可通过Hugging Face平台直接加载数据集子集,或克隆GitHub仓库获取完整评估框架。评估流程分为两个阶段:首先使用目标模型生成响应,随后通过评判模型进行打分。仓库提供了详尽的Shell脚本范例和Python接口,支持主流商业API和本地模型部署。环境配置文档明确列出了在线和离线两种依赖方案,研究者可根据实验需求选择适合的评估模式。整个评估体系设计强调可重复性,所有任务指标都配有标准化的计算脚本。
背景与挑战
背景概述
AudioTrust是由Kai Li等研究人员于2025年提出的多模态音频语言模型(ALLMs)综合评估基准。该数据集由清华大学等机构联合开发,旨在系统评估音频语言模型在六个关键维度的可信赖性:幻觉检测、鲁棒性、身份认证、隐私保护、公平性和安全性。作为首个针对音频模态的大规模可信评估框架,AudioTrust填补了多模态模型评估领域的空白,为提升语音交互系统的可靠性提供了标准化测试平台。数据集包含约10.4GB的专家标注音频样本,采用WAV格式存储,覆盖多样化的现实应用场景。
当前挑战
AudioTrust致力于解决音频语言模型在现实部署中面临的核心挑战:模型生成的幻觉内容与音频输入不一致性问题;在音频质量退化情况下的性能保持能力;对声纹伪造攻击的防御机制;避免泄露音频中的敏感信息;消除对不同人口统计学特征的偏见响应;以及确保生成内容符合安全规范。在构建过程中,研究团队需要克服多模态数据对齐的复杂性,设计跨维度的统一评估指标,并解决大规模音频样本标注的一致性问题。此外,如何建立可靠的模型间评估机制,确保评判结果的客观性也是重要的技术挑战。
常用场景
经典使用场景
在音频大语言模型(ALLMs)的研究领域,AudioTrust数据集被广泛应用于多维度可信度评估。研究者通过该数据集系统性地测试模型在幻觉生成、鲁棒性、身份认证、隐私保护、公平性和安全性等六个关键维度的表现。数据集提供的专家标注提示和标准化评估脚本,使得不同模型间的横向对比成为可能,为学术界建立统一的评估基准提供了重要工具。
解决学术问题
AudioTrust有效解决了多模态音频语言模型缺乏系统性评估框架的学术难题。通过构建覆盖六大可信维度的标准化测试集,该数据集填补了音频模型在对抗性测试、隐私泄露检测和伦理安全评估等方面的研究空白。其创新的模型间互评机制(如采用GPT-4o作为评判模型)为量化模型可信度提供了可复现的度量标准,显著推进了可信人工智能的理论研究进程。
衍生相关工作
基于AudioTrust的基准框架,学术界已衍生出多项创新研究。例如在音频幻觉检测方向,有工作提出基于注意力机制的grounding分数改进方案;在公平性评估领域,研究者开发了针对方言口音的偏差修正算法。数据集还启发了跨模态可信评估体系的构建,推动诞生了VideoTrust等延伸性基准项目,形成可信AI评估的研究谱系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作