JailFlipBench
收藏github2025-06-20 更新2025-06-27 收录
下载链接:
https://github.com/jailflip/jailflip-2025
下载链接
链接失效反馈官方服务:
资源简介:
我们提出的JailFlipBench可以分为三种场景:单模态、多模态和事实扩展。完整的多模态子集和其他子集的实例包含在`data`文件夹和[huggingface](https://huggingface.co/datasets/JailFlip/JailFlipBench)中。JailFlipBench的完整版本将在我们的论文被接受后发布。
The JailFlipBench proposed by us can be divided into three scenarios: single-modal, multi-modal, and fact extension. Complete instances of the multi-modal subset and other subsets are included in the 'data' folder and [huggingface](https://huggingface.co/datasets/JailFlip/JailFlipBench). The full version of JailFlipBench will be released after our paper is accepted.
创建时间:
2025-06-06
原始信息汇总
Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures
数据集概述
- 名称: JailFlipBench
- 类型: 多模态与单模态数据集
- 场景分类: 单模态、多模态和事实扩展
- 存储位置:
- GitHub仓库的
data文件夹 - Hugging Face平台: https://huggingface.co/datasets/JailFlip/JailFlipBench
- GitHub仓库的
数据集内容
- 多模态子集: 完整版本已包含
- 其他子集: 实例化版本已提供
- 完整版本: 待论文接受后发布
相关资源
- 论文: Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures
- 项目网页: https://jailflip.github.io/
实验方法
- 攻击类型:
- 直接查询(Direct Query)
- 直接攻击(Direct Attack)
- 提示攻击(Prompting Attack)
- 高级攻击:
- LLM作为攻击者(llm-as-an-attacker)
- 对抗性后缀攻击(adversarial suffix attack)
引用
bibtex @article{zhou2025beyond, title={Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures}, author={Zhou, Yukai and Yang, Sibei and Wang, Wenjie}, journal={arXiv preprint arXiv:2506.07402}, year={2025} }
许可
- 许可证: MIT
- 许可证链接: https://opensource.org/licenses/MIT
搜集汇总
数据集介绍

构建方式
在大型语言模型安全研究领域,JailFlipBench数据集的构建采用了多维度的对抗性测试方法。研究团队设计了一系列从基础到高级的JailFlip攻击策略,包括直接查询、直接攻击、结构化提示攻击,以及更复杂的LLM作为攻击者和对抗性后缀攻击。这些方法通过单模态、多模态和事实扩展三种场景进行系统化组织,确保了测试覆盖的全面性。数据集的构建过程严格遵循学术规范,所有攻击方法均通过代码实现并开放验证。
特点
JailFlipBench数据集以其独特的风险检测维度在语言模型安全评估领域脱颖而出。该数据集不仅包含传统的单模态文本攻击场景,还创新性地引入了多模态交互和事实知识扩展等复杂情境。特别值得注意的是,其采用的LLM作为评判者的验证协议,为评估模型对齐失效提供了标准化框架。数据集中的对抗样本设计展现了隐蔽性强、覆盖面广的特点,能够有效揭示语言模型在安全对齐方面的潜在漏洞。
使用方法
研究人员可通过Hugging Face平台直接获取JailFlipBench数据集,其结构化设计便于开展各类安全测试。使用该数据集时,建议按照单模态、多模态和事实扩展三大场景分别进行评估,以全面检测语言模型的安全性能。数据集配套提供了各类攻击方法的实现代码,包括LLM作为攻击者和对抗性后缀攻击等高级技术,用户可根据需要选择相应模块进行复现或扩展研究。对于希望深入探究的研究者,项目网页提供了更详细的技术说明和实验指导。
背景与挑战
背景概述
JailFlipBench数据集由Yukai Zhou、Sibei Yang和Wenjie Wang等研究人员于2025年提出,旨在揭示大型语言模型(LLM)在安全对齐方面的潜在风险。该数据集基于论文《Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures》的研究成果,重点关注LLM在单模态、多模态及事实扩展场景下的安全漏洞。通过构建多样化的对抗攻击方法,如直接查询、提示攻击及更高级的越狱式攻击,该数据集为评估和提升LLM的安全性提供了重要基准。其发布不仅填补了现有研究中对隐蔽性安全风险的系统性评估空白,也为后续相关研究奠定了数据基础。
当前挑战
JailFlipBench数据集的研究面临多重挑战。在领域问题层面,如何全面捕捉LLM在复杂场景下的安全对齐失败现象是一大难点,尤其是多模态交互和事实一致性等新兴风险维度。数据构建过程中,攻击方法的多样性和隐蔽性要求研究者平衡攻击强度与可检测性,同时确保生成样本的真实性和代表性。此外,多模态数据的标注与评估需解决模态间一致性问题,而事实扩展场景则对知识覆盖面和时效性提出了更高要求。这些挑战使得数据集的构建和验证过程极具复杂性。
常用场景
经典使用场景
在大型语言模型安全研究领域,JailFlipBench数据集为评估模型对齐失效导致的潜在风险提供了系统化基准。该数据集通过构建单模态、多模态及事实扩展三类对抗性场景,支持研究者全面测试模型在面临直接查询、结构化提示攻击以及高级越狱式攻击时的防御能力,尤其擅长揭示传统红队测试中难以捕捉的隐蔽性安全漏洞。
实际应用
在产业实践中,JailFlipBench被广泛应用于大语言模型安全审计流程。安全工程师通过该数据集构建的多维度测试用例,可提前发现部署模型中存在的潜在风险点,特别是在金融客服、医疗咨询等高风险领域,能够有效识别模型在复杂交互场景下可能产生的有害输出或事实性错误,为模型安全部署提供关键质量保障。
衍生相关工作
基于该数据集的研究已催生多个重要方向,包括自适应防御框架构建、多模态对抗样本检测等。部分工作进一步扩展了数据集的攻击维度,开发出基于强化学习的动态攻击策略;另有研究则利用该基准测试新型防御机制的有效性,推动了《基于对抗训练的对话模型鲁棒性增强》等代表性论文的发表。
以上内容由遇见数据集搜集并总结生成



