JailbreakPrompts
收藏Hugging Face2025-06-11 更新2025-06-12 收录
下载链接:
https://huggingface.co/datasets/Simsonsun/JailbreakPrompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了评估LLM保护栏(如二进制越狱分类器)的有效性而构建的。包含两个独立的数据集,分别为过滤后的高质量越狱提示和广泛覆盖的越狱提示,旨在进行无污染的评估。所有提示都经过过滤,确保与广泛使用的越狱分类器的训练数据没有重叠,从而更准确地评估分类器的泛化能力。
创建时间:
2025-06-05
搜集汇总
数据集介绍

构建方式
在大型语言模型安全评估领域,JailbreakPrompts数据集的构建旨在解决训练数据泄露导致的评估偏差问题。该数据集通过整合多个公开来源的越狱提示,包括HuggingFace上的专项数据集、Reddit社区讨论、GitHub代码库及技术文章,并经过严格过滤流程,确保所有提示均未出现在主流越狱分类器的训练数据中,从而构建出两个独立子集:经过人工筛选的高质量提示集和覆盖范围更广的未过滤提示集。
特点
该数据集的核心特征体现在其无污染评估的专有设计上。Dataset 1精选结构多样且高质量的越狱提示,注重语义复杂性和攻击模式的代表性;Dataset 2则保留更广泛的原始提示,以降低选择偏差并增强泛化测试能力。所有提示均经过交叉验证,彻底排除与现有分类器训练数据的重叠,为模型防御机制提供真实可靠的性能试金石。
使用方法
研究人员可利用该数据集对二进制越狱分类器及语言模型防护机制进行无偏评估。通过加载两个子集的提示数据,分别测试模型在精细化攻击和广泛攻击场景下的表现。典型流程包括将提示输入目标模型,检测其是否成功诱发越狱行为,并统计防御失效比例,从而客观衡量模型在真实环境中的鲁棒性和泛化能力。
背景与挑战
背景概述
随着大语言模型安全防护需求的日益凸显,JailbreakPrompts数据集应运而生,由研究团队在大型语言模型安全评估领域构建,专注于解决越狱攻击检测中的评估偏差问题。该数据集源于对现有红队测试工具与分类器训练数据间严重污染现象的实证发现,旨在为二进制越狱分类器及其他防护机制提供无数据泄露的基准测试环境,推动模型安全评估的科学化与标准化进程。
当前挑战
该数据集核心挑战在于解决越狱攻击检测中因训练与测试数据重叠导致的评估失真问题,需构建真正独立的测试集以验证模型泛化能力。在构建过程中,需克服多源异构越狱提示的整合难题,确保数据质量与多样性的平衡,同时严格过滤与现有分类器训练集的任何重叠,避免选择性偏差对评估结果的影响。
常用场景
经典使用场景
在大型语言模型安全评估领域,JailbreakPrompts数据集被广泛用于测试和验证二进制越狱分类器的泛化能力。研究人员通过该数据集构建对抗性测试基准,模拟真实场景中的恶意提示注入行为,评估防护系统的鲁棒性。其高质量且结构多样的提示词设计,为红队测试提供了标准化评估工具,显著提升了安全审计的覆盖面和深度。
实际应用
实际应用中,该数据集被科技公司用于构建企业级LLM安全防护系统。例如云计算平台依托其进行动态漏洞扫描,自动化识别模型可能被诱导生成有害内容的薄弱环节。网络安全团队则将其集成到红蓝对抗演练中,持续优化针对社会工程学攻击的防御策略,确保对话系统在开放环境中的安全部署。
衍生相关工作
该数据集催生了多项重要研究,如ProtectAI开发的动态污染检测框架和Katanemo提出的跨平台安全评估协议。斯坦福大学基于其构建了AdversarialPromptBench基准测试体系,而MIT团队则衍生出用于检测训练数据泄漏的ContaminationScan工具,这些工作共同推动了LLM安全生态的系统化发展。
以上内容由遇见数据集搜集并总结生成



