AdvBench_Emotion

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/audio-safety-group/AdvBench_Emotion

下载链接

链接失效反馈

官方服务：

资源简介：

AdvBench-Emotion 是一个用于多模态大模型语音输入安全研究的合成语音数据集。该数据集基于 AdvBench 中的有害行为提示（harmful_behaviors），通过 Qwen3-TTS-12Hz-1.7B-VoiceDesign 系统合成了 11 种不同情感状态的语音渲染。数据集包含 5,720 个音频片段（520 个提示 × 11 种情感），总大小约 1.7GB，格式为 16 位 PCM WAV。每个样本包含音频文件、原始文本提示以及情感（11 类）、效价（负面/中性）和唤醒度（低/中性/高）的标注。数据集专门用于语音安全、红队测试和情感条件多模态鲁棒性研究，使用时需遵守仅限研究用途、禁止商业分发等限制条款。已知限制包括：单一合成男声、情感标签基于 TTS 指令而非感知标注、仅覆盖负价情感状态（低/高唤醒度）以及英语单语种限制。

创建时间：

2026-05-04

搜集汇总

数据集介绍

构建方式

AdvBench_Emotion数据集是基于AdvBench基准测试中520条有害行为提示（harmful_behaviors）构建的语音安全研究资源。每条文本提示分别与11种情绪指令配对，并利用Qwen3-TTS-12Hz-1.7B-VoiceDesign模型，以单一合成男性音色进行情感条件化的语音生成。每条提示被渲染为对应情绪的音频片段，经过非空音频、采样率与合理时长验证后纳入数据集，最终形成包含5720条样本的音频集合。

特点

该数据集的核心特色在于将有害文本与多维情感标签深度融合。每条音频不仅标注了11类离散情绪（如愤怒、焦虑、悲伤、恐惧等），还依据情感维度理论提供了效价（负性/中性）与唤起度（低/中/高）的二级分类标签。这种层次化标注体系突破了传统语音数据集仅关注中性语音的局限，能够支撑从情感特征到安全对齐的跨模态鲁棒性研究。数据集采用16位PCM WAV格式存储，总容量约1.7 GB，结构清晰，按情绪子目录组织音频文件。

使用方法

研究者可通过HuggingFace Datasets库便捷加载该数据集，使用`load_dataset("audio-safety-group/AdvBench_Emotion", split="train")`即可获取完整的训练集。每条样本包含唯一标识符、音频数组与采样率、原始有害文本，以及情绪、效价、唤起度的类标索引。用户可基于情绪标签进行筛选操作，例如通过`ds.filter(lambda x: x['emotion'] == ds.features['emotion'].str2int('sad'))`提取特定悲伤情绪的样本。该数据集特别适用于评估多模态大语言模型在面对携带情感韵律的有害语音输入时的安全对齐行为与拒绝机制。

背景与挑战

背景概述

AdvBench_Emotion数据集由音频安全研究团队于2024年创建，旨在探索多模态大语言模型在语音输入场景下的安全鲁棒性问题。该数据集以Zou等人2023年提出的安全基准AdvBench中的520条有害提示为文本基础，通过Qwen3-TTS系统将其合成为涵盖11种情感色彩的语音样本，共计5720条音频。其核心研究价值在于揭示情感语调对语音安全对齐效果的影响，填补了现有安全评估中仅关注文本而忽视语用韵律的空白。作为首个耦合情感条件与对抗性提示的语音安全资源，该数据集为情感感知的语音对抗测试提供了标准化平台，对推动多模态安全研究具有重要影响力。

当前挑战

该数据集面临的挑战主要源于领域问题与构建过程的双重复杂性。在领域层面，现有安全机制多针对文本对抗样本设计，难以检测通过情感语音变体（如愤怒、焦虑等）传递的恶意指令，这要求模型具备跨模态的情感鲁棒性。构建过程中，为了保证情感标签的客观性，采用TTS系统条件指令而非人工标注，但合成语音的情感表现力存在差异且未经感知验证，可能引入标签噪声。同时，单一合成声线无法代表现实世界中的语音多样性，限制了数据集的生态效度。此外，非中性情感仅覆盖负价情绪，未能全面映射Valence-Arousal情感空间，对情感维度的系统探索构成约束。

常用场景

经典使用场景

AdvBench-Emotion数据集的核心应用在于探究情感条件化语音输入对多模态大语言模型安全对齐性能的影响。研究者在原始文本形式的有害指令（AdvBench基准）上，利用文本到语音技术赋予其十一种不同情感韵律，从而构建出一个兼具语言危险性与情感表现力的多模态测试集。这一设计使得研究者能够系统性地评估语音输入的语调变化（如愤怒、悲伤、恐惧）是否会削弱模型拒绝有害请求的能力，或引发不一致的拒绝行为。该数据集的经典使用范式是将情感化语音样本直接输入至多模态大模型，进而测量并对比其在情感中立与情感驱动条件下对有害指令的拒绝率与输出安全性。

衍生相关工作

基于AdvBench-Emotion的设计理念与数据结构，学术界已衍生出若干具有启发性的后续研究。其中，研究者提出了“情感条件化红队测试”这一新的评估范式，将情感韵律视为一种潜在的对抗性扰动变量，并进一步构建了涵盖不同性别、年龄与合成引擎的多元化语音红队数据集。另一路线的工作聚焦于探索大模型在音视频多模态输入上拒绝行为的不一致性，将AdvBench-Emotion与视频情感数据融合，以评估视觉与情感语音叠加时模型安全机制的脆弱程度。此外，情感感知的安全对齐训练策略——即通过在微调阶段引入带情感标注的有害语音样本——也在该数据集的启示下被提出，旨在提升多模态大模型在面对真实世界情感化攻击时的泛化防御能力。

数据集最近研究