JALMBench

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/AnonymousUser000/JALMBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，每个子数据集针对不同的应用场景，如有害查询、文本转移逃脱、音频起源逃脱等。具体包含的字段有文本ID、原始文本、文本内容、音频文件、语言、性别、口音等，其中一些子数据集还包括了尝试ID、提示文本和编辑文本等。数据集以.parquet文件格式存储。

This dataset consists of multiple sub-datasets, each tailored for distinct application scenarios, such as harmful queries, text transfer evasion, audio origin evasion, and others. It contains the following specific fields: text ID, raw text, text content, audio files, language, gender, accent, among others. Some of these sub-datasets additionally include fields like attempt ID, prompt text, and edited text. The dataset is stored in the Parquet file format.

创建时间：

2025-05-13

原始信息汇总

数据集概述：JALMBench

基本信息

语言：英语 (en)
许可证：CC-BY-4.0
数据规模：51,381个对抗性音频样本 + 2,200个文本提示

数据集结构

配置类别

Harmful Query Category
- AHarm：有害文本查询的对应音频
- ADiv：多样化音频集（9种语言/2种性别/3种口音）
- THarm：50个有害文本查询
Text-Transferred Jailbreak Category
- ICA/DAN/DI：基于提示生成的对抗文本及音频
- PAP：含2,000样本（每查询40种说服风格）
Audio-Originated Jailbreak Category
- SSJ：音频掩码攻击
- AMSE：音频编辑攻击
- BoN：大规模噪声变体
- AdvWave：基于GPT-4o的黑盒优化攻击

特征字段

通用字段：id, original_text, text (部分配置), audio, language, gender, accent
特殊字段：
- PAP/BoN/AdvWave：attempt_id
- SSJ：prompt
- AMSE：edit
- AdvWave：target_model

数据文件

存储格式：Parquet文件
路径分类：
- HarmfulQuery/
- Text_Transferred_Jailbreak/
- Audio_Originated_Jailbreak/

多尝试方法

PAP/BoN/AdvWave采用多尝试机制，任一尝试成功即视为越狱攻击有效。

搜集汇总

数据集介绍

构建方式

JALMBench数据集作为音频语言模型对抗攻击领域的基准工具，其构建过程体现了多模态数据的系统性整合。研究团队通过三阶段架构完成数据采集：基于Google TTS合成系统生成包含9种语言、2种性别和3种口音的多样化有害语音查询；采用ICA、DAN等4种文本对抗方法生成文本型越狱样本后转化为音频形态；直接运用SSJ掩码技术和AdvWave黑盒优化等4种音频攻击手段生成原生对抗样本。特别值得注意的是PAP子集通过40种说服风格生成2000个样本，展现了策略的多样性。

特点

该数据集的核心价值在于其多维度的对抗特性设计。包含51,381个对抗音频与2,200个文本提示的规模，覆盖文本转换和原生音频两大攻击路径。语音数据具有显著的语言多样性特征，涉及多语种、性别和口音参数的系统性控制。技术层面整合了文本掩码(SSJ)、波形编辑(AMSE)等前沿攻击手段，其中AdvWave子集更创新性地引入GPT-4o进行黑盒优化。多尝试机制的设计允许单次成功即判定越狱，符合实际攻防场景的评估需求。

使用方法

研究者可通过HuggingFace平台加载parquet格式的分块数据，各子集按攻击类型独立配置。使用时应首先区分三大类别：有害查询类侧重基础攻击评估，文本转换类适合跨模态对抗研究，原生音频类用于端到端攻击测试。音频样本与原始文本的严格对齐支持ASR系统鲁棒性分析，语言和人口统计学标签便于偏差检测研究。对于PAP等多尝试样本，建议采用概率评估框架衡量攻击成功率。

背景与挑战

背景概述

JALMBench数据集作为音频语言模型（ALMs）安全评估的重要基准，诞生于人工智能安全研究日益受到关注的背景下。该数据集由国际研究团队构建，旨在系统性地评估ALMs在面对对抗性攻击时的鲁棒性。数据集包含51,381个对抗性音频样本和2,200个文本提示，覆盖多种攻击场景，其创新性体现在将文本与音频模态的对抗攻击进行整合研究。JALMBench的建立为提升语音交互系统的安全性提供了关键的研究基础，推动了人机交互安全领域的发展。

当前挑战

JALMBench数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确评估音频语言模型对多样化对抗攻击的防御能力，特别是在处理跨语言、跨口音等复杂场景时的鲁棒性；在构建技术层面，确保对抗样本的多样性和代表性存在显著难度，包括多语言音频合成质量的控制、不同攻击方法有效性的平衡，以及大规模对抗样本标注的准确性维护。这些挑战直接关系到数据集在模型安全评估中的可靠性和实用性。

常用场景

经典使用场景

在音频语言模型安全研究领域，JALMBench数据集被广泛用于评估模型对抗越狱攻击的鲁棒性。该数据集通过精心设计的对抗性音频样本和文本提示，为研究者提供了标准化的测试环境，特别是在模拟真实场景中的恶意攻击时展现出独特价值。多模态攻击样本的多样性使得该数据集成为衡量模型安全性的重要基准。

实际应用

该数据集在智能语音助手安全审计、内容过滤系统优化等实际场景中具有重要应用价值。企业可利用其评估产品对恶意语音指令的防御能力，监管机构则借助该数据集制定更完善的安全标准。特别是多语言攻击样本为全球化服务的漏洞检测提供了关键测试材料。

衍生相关工作

基于JALMBench已催生多项重要研究，包括音频对抗样本防御框架AudioShield、多模态越狱攻击检测系统JailGuard等。数据集中的PAP方法启发了后续的渐进式攻击研究，而AdvWave的技术路线则促进了黑盒优化算法在语音安全领域的应用发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集