five

JailbreakDB

收藏
Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/youbin2014/JailbreakDB
下载链接
链接失效反馈
官方服务:
资源简介:
JailbreakDB是一个用于LLM安全研究的大规模、经过策划的纯文本数据集,包含jailbreak/adversarial prompts和benign prompts两种类型的提示。每条记录包含system_prompt、user_prompt、jailbreak(0/1)、source和tactic字段。
创建时间:
2025-10-17
原始信息汇总

JailbreakDB数据集概述

数据集基本信息

  • 名称:JailbreakDB
  • 语言:英语
  • 许可证:CC-BY-4.0
  • 任务类别:文本分类
  • 标签:LLM安全、越狱、提示词、安全

数据集内容

  • text_jailbreak_unique.csv:约660万行,包含越狱/对抗性提示词
  • text_regular_unique.csv:约570万行,包含良性提示词

数据字段

每条记录包含以下字段:

  • system_prompt
  • user_prompt
  • jailbreak(0/1)
  • source
  • tactic

数据特点

  • 提供经过清理、去重的纯文本数据
  • 不包含工程化特征或实验结果
  • 专门用于大型语言模型安全研究

相关资源

  • 论文:https://arxiv.org/abs/2510.15476
  • 数据加载:支持通过Hugging Face datasets库加载

安全声明

本数据集可能包含有害、冒犯性或令人不安的内容,严格用于模型安全性和鲁棒性研究。使用前请审查机构要求和法律规定。

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型安全研究领域,JailbreakDB通过系统化收集与筛选流程构建而成。该数据集整合了来自多个公开来源的对抗性提示与良性提示,采用去重技术确保文本唯一性,最终形成包含约660万条越狱提示和570万条常规提示的纯净语料库。每条记录均标注了系统提示、用户提示、越狱标识、数据来源及攻击策略等关键元数据,为安全分析提供结构化基础。
特点
作为专攻大语言模型安全性的语料库,JailbreakDB具备显著的规模优势与专业特性。其核心价值体现在严格区分的二元结构:越狱提示库揭示各类对抗攻击模式,良性提示集则构成安全基准参照。数据集采用标准化字段设计,每条记录包含攻击策略分类与溯源信息,这种细粒度标注机制为研究提示注入攻击的演化规律提供了多维分析视角。
使用方法
针对大模型安全评估场景,研究者可通过HuggingFace生态快速加载该数据集。使用datasets库直接读取云端CSV文件后,即可获得包含越狱与常规提示的双分支数据结构。典型应用流程包括构建提示安全分类器、训练对抗检测模型或开展红队测试,但需注意该数据集可能包含敏感内容,使用者应严格遵守伦理规范与安全协议。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,其安全性问题逐渐成为学术界关注的焦点。JailbreakDB数据集由Hanbin Hong等研究人员于2025年创建,旨在系统化研究提示词安全机制。该数据集通过构建规模达数百万条的对立提示与良性提示对照样本,为大语言模型安全评估提供了标准化基准,推动了对抗性防御技术的发展。
当前挑战
在解决大语言模型安全漏洞方面,该数据集需应对对抗性提示的语义隐蔽性与攻击多样性挑战,包括如何准确识别经过伪装的恶意指令。构建过程中面临数据去重与质量控制的难题,需在保持语义完整性的同时消除重复样本,并确保对立提示与良性提示的严格区分,这对数据清洗流程提出了极高要求。
常用场景
经典使用场景
在大型语言模型安全研究领域,JailbreakDB数据集被广泛用于评估和增强模型对对抗性提示的防御能力。研究者通过对比分析其中的越狱提示与良性提示,系统性地测试模型在真实场景下的安全边界,为构建鲁棒性更强的对话系统提供关键数据支撑。
衍生相关工作
基于该数据集衍生的研究已形成系列重要成果,包括构建动态对抗训练框架、开发提示安全评估指标体系等。这些工作不仅深化了对模型脆弱性的认知,还催生了新一代安全防护工具的开发,持续推动着AI安全研究社区的技术演进。
数据集最近研究
最新研究方向
在大型语言模型安全研究领域,JailbreakDB数据集正推动对抗性提示检测与防御机制的前沿探索。该数据集通过系统化标注的越狱提示与良性提示对比,为构建细粒度安全分类器提供了关键训练资源。当前研究聚焦于多模态攻击策略的跨领域迁移性分析,结合提示工程中的语义扰动技术,探索模型在复杂社会工程攻击下的鲁棒性边界。随着生成式人工智能的深度应用,该数据集已成为评估模型对抗性样本泛化能力的重要基准,其战术分类体系为构建动态防御框架提供了理论支撑,对促进可信人工智能发展具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作