SACRED-Bench

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/tsinghua-ee/SACRED-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SACRED-Bench（语音音频组合对抗基准）是一个设计用来评估多模态大语言模型（LLM）在复杂音频攻击下鲁棒性的基准。它利用语音音频组合机制创建具有挑战性的对抗场景，包括语音重叠和多人对话、语音音频混合以及多样化的语音指令格式。该基准的目标是揭示在跨模态、语音音频组合攻击下，最先进LLM的漏洞，强调了对多模态LLM安全的音频感知防御的迫切需要。

创建时间：

2025-11-11

原始信息汇总

SACRED-Bench 数据集概述

数据集基本信息

许可证：MIT
任务类别：音频-文本转文本
语言：英语
标签：多模态大语言模型、红队测试、安全性、音频攻击

数据集简介

SACRED-Bench（语音-音频组合红队测试基准）是一个专门设计用于评估多模态大语言模型在复杂音频攻击下鲁棒性的基准数据集。

核心特征

攻击机制：利用语音-音频组合机制创建具有挑战性的对抗场景
攻击类型：
- 语音重叠和多说话人对话：将有害提示嵌入良性语音下方或旁边
- 语音-音频混合：通过非语音音频与良性语音或音频结合暗示不安全意图
- 多样化口语指令格式：使用开放式问答、是否问答等多种格式规避纯文本过滤器

研究背景

引入论文：Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard
研究目标：暴露最先进大语言模型在跨模态语音-音频组合攻击下的漏洞
研究意义：强调为多模态大语言模型安全开发音频感知防御的重要性

注意事项

警告：该论文包含可能具有冒犯性或有害性的示例内容

搜集汇总

数据集介绍

构建方式

在语音与音频安全研究领域，SACRED-Bench通过创新的语音-音频组合机制构建对抗样本。该数据集摒弃传统扰动方法，采用多说话人对话重叠技术将恶意指令嵌入良性语音背景中，同时融合非语音音频暗示危险意图，并设计开放式问答与二元判断等多样化指令格式以规避文本过滤系统。这种多维度组合策略有效模拟了现实场景中复杂的跨模态攻击模式。

特点

作为评估多模态大模型安全性的基准，SACRED-Bench的突出特点在于其攻击范式的复合性。它不仅涵盖语音重叠与多说话人对话的时序干扰，还包含语音-音频混合的语义暗示，更通过多元指令格式构建系统性测试矩阵。这种三维一体的设计能全面探测模型在跨模态理解、语境解析与安全过滤方面的脆弱性，为音频安全防御研究提供精准的评估标尺。

使用方法

研究人员可借助该基准开展多模态大模型的鲁棒性验证，通过加载标准测试集系统评估模型对复合音频攻击的抵抗能力。使用时应遵循分层测试原则：先检验基础语音理解功能，再逐步引入多说话人重叠与音频混合场景，最终通过多样化指令格式全面评估安全机制。建议配合论文提出的SALMONN-Guard防御方案进行对比实验，以推动音频安全防护技术的迭代发展。

背景与挑战

背景概述

随着多模态大语言模型在语音与音频处理领域的广泛应用，其安全性与鲁棒性成为研究焦点。SACRED-Bench由研究团队于2024年提出，聚焦于通过语音-音频组合机制构建对抗性攻击场景，旨在系统评估模型对复杂跨模态攻击的防御能力。该数据集创新性地融合多说话人对话与音频混合技术，突破了传统扰动方法的局限，为构建可信赖的多模态智能系统提供了关键理论基础。

当前挑战

该数据集核心挑战在于解决多模态大语言模型对组合式音频攻击的脆弱性问题，包括语音重叠场景下的意图隐藏、非语音音频暗示的安全威胁，以及多样化指令格式对文本过滤器的规避。构建过程中需克服跨模态语义对齐的技术难点，同时确保对抗样本在保持听觉自然性的前提下实现有效攻击，这对数据采集的复杂性与标注一致性提出了极高要求。

常用场景

经典使用场景

在人工智能安全领域，SACRED-Bench作为语音-音频组合攻击的基准测试平台，主要用于评估多模态大语言模型对复杂音频对抗样本的鲁棒性。该数据集通过模拟真实场景中的语音重叠、多说话人对话及语音-音频混合等机制，构建具有挑战性的对抗环境，为模型安全性研究提供标准化评估框架。

衍生相关工作

基于该数据集衍生的经典工作包括SALMONN-Guard防御框架，该研究通过构建动态音频过滤机制有效抵御组合攻击。后续研究进一步拓展至跨模态对齐、音频对抗训练等领域，催生了多模态红队测试标准化的系列成果，持续推动音频安全研究向纵深发展。

数据集最近研究