JALMBench

Name: JALMBench
Creator: 香港科技大学（广州）, 北德克萨斯大学, 中国科学技术大学, 福建师范大学, 济南大学
Published: 2025-05-23 15:29:55
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://huggingface.co/datasets/AnonymousUser000/JALMBench, https://github.com/sfofgalaxy/JALMBench

下载链接

链接失效反馈

官方服务：

资源简介：

JALMBench是一个评估音频语言模型（ALM）在越狱攻击下的安全性的综合基准。它包括一个包含2,200个文本样本和51,381个音频样本的数据集，总时长超过268小时。数据集分为三个部分：有害查询、文本转移越狱和音频起源越狱。JALMBench支持12种主流ALM、4种基于文本的攻击方法和4种基于音频的攻击方法，以及5种防御方法。该数据集旨在评估ALM对越狱攻击的鲁棒性，并探索缓解策略。

JALMBench is a comprehensive benchmark for evaluating the safety of audio language models (ALMs) against jailbreak attacks. It comprises a dataset with 2,200 text samples and 51,381 audio samples, with a total duration exceeding 268 hours. The dataset is divided into three subsets: harmful queries, text-transfer jailbreak, and audio-origin jailbreak. JALMBench supports 12 mainstream ALMs, four text-based attack methods, four audio-based attack methods, and five defense methods. This benchmark aims to evaluate the robustness of ALMs against jailbreak attacks and explore mitigation strategies.

提供机构：

香港科技大学（广州）, 北德克萨斯大学, 中国科学技术大学, 福建师范大学, 济南大学

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

JALMBench数据集的构建采用了多模态融合的方法，涵盖了文本和音频两种模态。首先，从AdvBench中精选了50个代表性的有害文本查询（THarm），并通过8种不同的越狱方法生成了文本和音频对抗样本。数据集分为三大类别：有害查询类别、文本转移越狱类别和音频原生越狱类别。有害查询类别包括原始文本查询（THarm）、对应的有害音频样本（AHarm）以及用于研究声音多样性的多样化音频样本（ADiv）。文本转移越狱类别则通过四种越狱方法（ICA、DAN、DI和PAP）对THarm进行处理，生成对抗性文本样本及其对应的音频样本。音频原生越狱类别则专门针对ALMs设计了四种越狱攻击方法（SSJ、AMSE、BoN和AdvWave），生成对抗性音频样本。整个数据集包含51,381个音频样本（总计超过268小时）和2,200个文本样本，确保了数据的全面性和多样性。

使用方法

JALMBench数据集的使用方法主要包括三个模块：输入模块、处理模块和输出模块。在输入模块中，用户可以选择文本或音频输入，并可配置语言、口音和性别声音等参数。处理模块则支持多种越狱攻击和防御方法，用户可以通过实现预定义的类来扩展新的ALMs或防御方法。输出模块负责处理模型的响应，包括文本和音频输出，并通过自动语音识别（ASR）技术将音频转录为文本以便进一步评估。此外，数据集还提供了三种评估模型（如GPT-4o）来评分生成的响应，确保评估的客观性和准确性。用户可以通过Docker镜像快速部署和运行基准框架，适用于支持CUDA的设备。

背景与挑战

背景概述

JALMBench是由香港科技大学（广州）等机构的研究团队于2025年推出的首个针对音频语言模型（ALMs）越狱漏洞的综合性基准测试框架。该数据集包含2,200个文本样本和51,381个音频样本（总时长超过268小时），支持评估12种主流ALMs、8种攻击方法（4种文本迁移攻击和4种音频原生攻击）以及5种防御方法。其核心研究问题是解决ALMs在音频模态下的安全评估标准化缺失问题，填补了多模态大模型安全研究领域的重要空白。该数据集通过系统化的攻击效率分析、话题敏感性测试和语音多样性实验，揭示了当前ALMs在音频模态下存在的显著安全漏洞，特别是对抗性音频攻击的平均成功率高达72.9%。

当前挑战

JALMBench面临的核心挑战体现在两个维度：领域问题方面，需解决音频模态特有的安全威胁，如语音克隆攻击（AdvWave成功率97.3%）和跨模态攻击（文本迁移攻击平均成功率49.7%），这些攻击利用ALMs的声学特征编码缺陷和模态融合漏洞；构建过程方面，存在文本到语音（TTS）服务的高昂调用成本（生成51,381个样本）、多语言音频样本的标注复杂性（覆盖9种语言和3种口音），以及商业ALMs（如GPT-4o-Audio）的API访问限制等技术障碍。此外，离散化音频编码（如GLM-4-Voice）与连续特征提取（如Qwen2-Audio）模型的安全特性差异，也为统一评估框架设计带来挑战。

常用场景

经典使用场景

JALMBench作为首个专门评估音频语言模型（ALMs）安全性的基准测试工具，其经典使用场景集中在对抗性攻击模拟与防御策略验证领域。研究者在可控环境中通过该数据集系统性地注入51,381个音频样本（含文本转换攻击和原生音频攻击），测试12种主流ALMs对8类越狱攻击的抵抗能力。典型流程包括：将有害查询通过文本转语音（TTS）生成多口音/性别变体，应用AdvWave等对抗性音频优化技术，最终量化模型在话题敏感性、语音多样性等维度的脆弱性模式。

解决学术问题

该数据集解决了ALMs安全研究中的三个核心学术问题：首先，填补了多模态模型音频越狱攻击缺乏统一评估框架的空白，通过标准化API支持8种攻击方法和5种防御策略的横向对比；其次，揭示了连续特征提取类模型（如LLaMA-Omni）在音频模态存在显著安全缺口（文本/音频ASR差异达64%），而离散标记化模型（如GLM-4-Voice）能继承文本模态安全特性；最后，实证了现有视觉语言模型防御策略迁移至音频域的局限性，如AdaShield虽降低19.7% ASR却导致下游任务准确率下降6.3%。

实际应用

在实际应用层面，JALMBench为商业ALMs开发提供了关键安全验证工具。科技公司可基于其268小时攻击音频库进行压力测试，特别针对语音助手场景中高风险领域（如金融欺诈、医疗建议等）进行鲁棒性增强。数据集揭示的非美式口音攻击成功率提升现象（如印度英语ASR增加19.7%）直接指导了TTS训练数据的均衡采集策略。此外，响应级过滤方案LLaMA-Guard在保持0.1%效用损失下实现16.2% ASR降低的特性，已被集成至多个语音交互系统的安全中间件。

数据集最近研究