five

JALMBench

收藏
arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/AnonymousUser000/JALMBench, https://github.com/sfofgalaxy/JALMBench
下载链接
链接失效反馈
官方服务:
资源简介:
JALMBench是一个评估音频语言模型(ALM)在越狱攻击下的安全性的综合基准。它包括一个包含2,200个文本样本和51,381个音频样本的数据集,总时长超过268小时。数据集分为三个部分:有害查询、文本转移越狱和音频起源越狱。JALMBench支持12种主流ALM、4种基于文本的攻击方法和4种基于音频的攻击方法,以及5种防御方法。该数据集旨在评估ALM对越狱攻击的鲁棒性,并探索缓解策略。

JALMBench is a comprehensive benchmark for evaluating the safety of audio language models (ALMs) against jailbreak attacks. It comprises a dataset with 2,200 text samples and 51,381 audio samples, with a total duration exceeding 268 hours. The dataset is divided into three subsets: harmful queries, text-transfer jailbreak, and audio-origin jailbreak. JALMBench supports 12 mainstream ALMs, four text-based attack methods, four audio-based attack methods, and five defense methods. This benchmark aims to evaluate the robustness of ALMs against jailbreak attacks and explore mitigation strategies.
提供机构:
香港科技大学(广州), 北德克萨斯大学, 中国科学技术大学, 福建师范大学, 济南大学
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
JALMBench数据集的构建采用了多模态融合的方法,涵盖了文本和音频两种模态。首先,从AdvBench中精选了50个代表性的有害文本查询(THarm),并通过8种不同的越狱方法生成了文本和音频对抗样本。数据集分为三大类别:有害查询类别、文本转移越狱类别和音频原生越狱类别。有害查询类别包括原始文本查询(THarm)、对应的有害音频样本(AHarm)以及用于研究声音多样性的多样化音频样本(ADiv)。文本转移越狱类别则通过四种越狱方法(ICA、DAN、DI和PAP)对THarm进行处理,生成对抗性文本样本及其对应的音频样本。音频原生越狱类别则专门针对ALMs设计了四种越狱攻击方法(SSJ、AMSE、BoN和AdvWave),生成对抗性音频样本。整个数据集包含51,381个音频样本(总计超过268小时)和2,200个文本样本,确保了数据的全面性和多样性。
使用方法
JALMBench数据集的使用方法主要包括三个模块:输入模块、处理模块和输出模块。在输入模块中,用户可以选择文本或音频输入,并可配置语言、口音和性别声音等参数。处理模块则支持多种越狱攻击和防御方法,用户可以通过实现预定义的类来扩展新的ALMs或防御方法。输出模块负责处理模型的响应,包括文本和音频输出,并通过自动语音识别(ASR)技术将音频转录为文本以便进一步评估。此外,数据集还提供了三种评估模型(如GPT-4o)来评分生成的响应,确保评估的客观性和准确性。用户可以通过Docker镜像快速部署和运行基准框架,适用于支持CUDA的设备。
背景与挑战
背景概述
JALMBench是由香港科技大学(广州)等机构的研究团队于2025年推出的首个针对音频语言模型(ALMs)越狱漏洞的综合性基准测试框架。该数据集包含2,200个文本样本和51,381个音频样本(总时长超过268小时),支持评估12种主流ALMs、8种攻击方法(4种文本迁移攻击和4种音频原生攻击)以及5种防御方法。其核心研究问题是解决ALMs在音频模态下的安全评估标准化缺失问题,填补了多模态大模型安全研究领域的重要空白。该数据集通过系统化的攻击效率分析、话题敏感性测试和语音多样性实验,揭示了当前ALMs在音频模态下存在的显著安全漏洞,特别是对抗性音频攻击的平均成功率高达72.9%。
当前挑战
JALMBench面临的核心挑战体现在两个维度:领域问题方面,需解决音频模态特有的安全威胁,如语音克隆攻击(AdvWave成功率97.3%)和跨模态攻击(文本迁移攻击平均成功率49.7%),这些攻击利用ALMs的声学特征编码缺陷和模态融合漏洞;构建过程方面,存在文本到语音(TTS)服务的高昂调用成本(生成51,381个样本)、多语言音频样本的标注复杂性(覆盖9种语言和3种口音),以及商业ALMs(如GPT-4o-Audio)的API访问限制等技术障碍。此外,离散化音频编码(如GLM-4-Voice)与连续特征提取(如Qwen2-Audio)模型的安全特性差异,也为统一评估框架设计带来挑战。
常用场景
经典使用场景
JALMBench作为首个专门评估音频语言模型(ALMs)安全性的基准测试工具,其经典使用场景集中在对抗性攻击模拟与防御策略验证领域。研究者在可控环境中通过该数据集系统性地注入51,381个音频样本(含文本转换攻击和原生音频攻击),测试12种主流ALMs对8类越狱攻击的抵抗能力。典型流程包括:将有害查询通过文本转语音(TTS)生成多口音/性别变体,应用AdvWave等对抗性音频优化技术,最终量化模型在话题敏感性、语音多样性等维度的脆弱性模式。
解决学术问题
该数据集解决了ALMs安全研究中的三个核心学术问题:首先,填补了多模态模型音频越狱攻击缺乏统一评估框架的空白,通过标准化API支持8种攻击方法和5种防御策略的横向对比;其次,揭示了连续特征提取类模型(如LLaMA-Omni)在音频模态存在显著安全缺口(文本/音频ASR差异达64%),而离散标记化模型(如GLM-4-Voice)能继承文本模态安全特性;最后,实证了现有视觉语言模型防御策略迁移至音频域的局限性,如AdaShield虽降低19.7% ASR却导致下游任务准确率下降6.3%。
实际应用
在实际应用层面,JALMBench为商业ALMs开发提供了关键安全验证工具。科技公司可基于其268小时攻击音频库进行压力测试,特别针对语音助手场景中高风险领域(如金融欺诈、医疗建议等)进行鲁棒性增强。数据集揭示的非美式口音攻击成功率提升现象(如印度英语ASR增加19.7%)直接指导了TTS训练数据的均衡采集策略。此外,响应级过滤方案LLaMA-Guard在保持0.1%效用损失下实现16.2% ASR降低的特性,已被集成至多个语音交互系统的安全中间件。
数据集最近研究
最新研究方向
随着音频语言模型(ALMs)的快速发展,其在语音理解、口语问答和音频字幕等任务中展现出卓越性能。然而,ALMs的安全性问题,尤其是针对越狱攻击的脆弱性,逐渐成为研究热点。JALMBench作为首个全面评估ALMs安全性的基准框架,整合了51,381个音频样本和2,200个文本样本,支持12种主流ALMs、8种攻击方法和5种防御方法的研究。最新研究揭示了ALMs在音频模态下的高攻击成功率(ASR),特别是针对直接音频操纵的攻击方法(如AdvWave)表现出显著脆弱性。前沿研究聚焦于跨模态安全对齐、对抗性音频防御策略以及模型鲁棒性增强,旨在填补当前ALMs安全评估框架的空白,并为构建更安全的下一代语音交互系统提供理论基础与实践工具。
相关研究论文
  • 1
    JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models香港科技大学(广州), 北德克萨斯大学, 中国科学技术大学, 福建师范大学, 济南大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作