JALMBench

github2026-02-07 更新2026-02-11 收录

下载链接：

https://github.com/sfofgalaxy/JALMBench

下载链接

链接失效反馈

官方服务：

资源简介：

JALMBench是一个用于评估LALM安全性的综合基准，包含11,316个文本提示和245,355个音频样本（超过1,000小时）。它支持12种主流LALM、8种攻击方法（4种文本转移+4种音频起源）和5种防御。

JALMBench is a comprehensive benchmark for assessing the safety of Large Audio-Language Models (LALMs). It encompasses 11,316 text prompts and 245,355 audio samples with a combined duration exceeding 1,000 hours. The benchmark supports 12 mainstream LALMs, 8 attack methods (4 text transfer attacks and 4 audio origin attacks), as well as 5 defense strategies.

创建时间：

2026-02-07

原始信息汇总

JALMBench 数据集概述

数据集基本信息

数据集名称：JALMBench
官方描述：一个用于评估音频语言模型（LALM）在越狱攻击下安全性的综合性基准。
论文标题：JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models
论文链接：https://www.arxiv.org/abs/2505.17568
数据集链接：https://huggingface.co/datasets/AnonymousUser000/JALMBench
许可证：Apache 2.0

数据集规模与构成

文本提示数量：11,316 个
音频样本数量：245,355 个
音频总时长：超过 1,000 小时

支持评估的模型

数据集支持评估 12 个主流的音频语言模型：

SpeechGPT (speechgpt)
Spirit LM (spirit)
GLM4Voice (glm)
SALMONN (salmonn)
Qwen2-Audio (qwen)
LLaMA-Omni (lo)
DiVA (diva)
FreezeOmni (fo)
VITA-1.0 (vita_1)
VITA-1.5 (vita_1_5)
OpenAI GPT-4o-Audio (gpt)
Gemini-2.0-Flash (gemini)

攻击与防御方法

攻击方法数量：8 种
- 4 种文本转移攻击
- 4 种音频原生攻击
防御方法数量：5 种

数据集用途与功能

主要用途：研究音频语言模型在越狱攻击下的安全性。
评估功能：
- 支持从音频生成文本响应。
- 支持结合文本转语音模型，从文本生成音频和文本响应。
- 支持在音频或文本输入基础上附加提示词进行生成。
评估流程：包含生成模型响应、使用GPT评估响应、计算攻击成功率三个主要步骤。
工具集：提供音频编辑工具，用于音频预处理（如速度调整、音量控制、添加噪声、音高修改等）。

注意事项

目的声明：该项目仅用于研究和教育目的，不用于商业用途。
内容警告：该存储库包含有害语言的示例。

搜集汇总

数据集介绍

构建方式

在音频语言模型安全评估领域，JALMBench通过系统化方法构建了大规模基准数据集。该数据集整合了11,316条文本提示与超过1,000小时的245,355个音频样本，覆盖了12种主流音频语言模型。构建过程中，研究团队设计了8种攻击方法，包括4种文本迁移攻击与4种音频原生攻击，并融入了5种防御策略，形成了多维度的评估框架。数据采集与处理遵循严格的学术规范，确保了样本的多样性与代表性，为模型安全性研究提供了坚实的数据基础。

特点

JALMBench展现出高度的综合性与实用性，其核心特点在于广泛覆盖了当前主流的音频语言模型与攻击防御场景。数据集不仅支持包括SpeechGPT、Spirit LM、GLM4Voice在内的12种模型评估，还提供了多模态输入支持，允许通过音频或文本结合TTS模型进行测试。数据集结构清晰，配备了完整的评估工具链，包括音频编辑工具、防御模块与自动化评估脚本，能够全面衡量模型在对抗性攻击下的鲁棒性。这种设计使得研究人员能够深入探究不同攻击策略的有效性与防御机制的局限性。

使用方法

使用JALMBench进行评估需遵循系统化的操作流程。首先需要下载所需的预训练模型至本地缓存目录，随后通过Docker或Conda配置包含CUDA 12.4的计算环境。评估过程支持两种主要模式：一是通过process_single.py脚本进行单样本生成测试，可指定输入音频、文本及提示语；二是通过main.py脚本进行批量数据集评估，支持按语言、性别、口音等属性筛选样本。完成模型响应生成后，需调用evaluator.py脚本结合GPT-4o-mini进行自动化评分，最终通过get_result.py计算攻击成功率，从而获得全面的安全性能指标。

背景与挑战

背景概述

随着音频语言模型（LALMs）在语音识别、对话生成等领域的广泛应用，其安全性问题日益凸显，特别是针对越狱攻击的脆弱性。JALMBench数据集于2026年由香港科技大学等机构的研究团队创建，旨在系统评估主流音频语言模型在面对多样化越狱攻击时的防御能力。该数据集包含超过1,000小时的音频样本和万余条文本提示，覆盖12种主流模型、8类攻击方法及5种防御策略，为音频模态下的安全研究提供了标准化基准，推动了多模态人工智能安全领域的发展。

当前挑战

JALMBench致力于解决音频语言模型在越狱攻击下的安全评估难题，其核心挑战在于如何构建覆盖多语言、多口音、多性别声学特征的对抗性样本，以模拟真实世界中的复杂攻击场景。在数据集构建过程中，研究人员需克服音频数据标注的一致性难题，确保攻击提示与音频内容的语义对齐，同时需协调多种音频编辑工具与模型接口的兼容性，以支持大规模自动化评估流程。此外，平衡数据集的多样性与评估效率，避免因音频质量差异或背景噪声干扰导致评估偏差，亦是构建过程中的关键挑战。

常用场景

经典使用场景

在音频语言模型安全评估领域，JALMBench数据集被广泛用于系统性地测试和比较不同模型在面对越狱攻击时的鲁棒性。该数据集通过整合超过一千小时的音频样本和上万条文本提示，构建了一个涵盖多种攻击方法和防御策略的标准化测试平台。研究人员可以借助该数据集，在受控环境中模拟真实世界的恶意输入，从而客观衡量各类音频语言模型的安全边界与漏洞分布。

实际应用

在实际应用层面，JALMBench为开发安全的语音助手、智能客服系统及多模态交互平台提供了关键测试工具。企业可利用该数据集对部署前的音频模型进行压力测试，识别潜在的安全风险，从而避免恶意用户通过语音指令绕过内容过滤机制。此外，该基准也有助于行业制定音频模型安全标准，提升相关产品在金融、医疗等敏感场景下的可靠性。

衍生相关工作

围绕JALMBench数据集，学术界衍生出一系列针对音频语言模型安全的前沿研究。例如，基于其构建的对抗样本生成方法、实时音频过滤算法以及多模态防御框架等工作，均在顶级会议上发表了重要成果。这些研究不仅深化了对音频越狱攻击本质的理解，还催生了如AdaShield、LLaMAGuard等新型防御机制，形成了从攻击到防御的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集