jailbreak_dataset

github2025-09-04 更新2025-09-06 收录

下载链接：

https://github.com/TransluceAI/jailbreaking-frontier-models

下载链接

链接失效反馈

官方服务：

资源简介：

数据集位于data/jailbreak_dataset.jsonl，每行包含以下字段：behavior_id（行为的唯一标识符）、behavior（用于引发行为的用户提示）、category（类别，如drug/chemical/biological/radiological/nuclear/explosive之一）、optimizer_target（肯定回应的开头，如"Sure..."，用于其他越狱技术）。

本数据集存储于data/jailbreak_dataset.jsonl文件中，每一行均包含以下字段：behavior_id（行为的唯一标识符）、behavior（用于触发该行为的用户提示）、category（类别，可选值为毒品（drug）、化学品（chemical）、生物制剂（biological）、放射物质（radiological）、核材料（nuclear）、爆炸物（explosive）中的一种）、optimizer_target（正向回应的起始文本，例如"Sure..."，可用于其他越狱技术）。

创建时间：

2025-08-30

原始信息汇总

Jailbreaking Frontier Models 数据集概述

数据集基本信息

名称：Jailbreaking Frontier Models
存储位置：data/jailbreak_dataset.jsonl
数据格式：JSON Lines（每行一个JSON对象）

数据结构

每个数据条目包含以下字段：

behavior_id：行为的唯一标识符
behavior：用于引发特定行为的用户提示
category：行为所属类别（drug/chemical/biological/radiological/nuclear/explosive）
optimizer_target：肯定回应的起始部分（如"Sure..."）

数据集用途

该数据集用于训练越狱代理，旨在自动突破前沿语言模型的安全防护机制。

注意事项

该实现优先考虑清晰度而非效率，用户可能需要根据自身需求进行优化。RL训练循环未包含在此版本中。

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建对抗性测试数据集对于评估模型鲁棒性至关重要。jailbreak_dataset通过系统化收集潜在恶意行为提示构建而成，每条数据包含行为ID、具体行为描述、危害类别及优化目标字段，采用JSONL格式存储以确保结构清晰与可扩展性。数据采集聚焦于药物化学、生物放射及爆炸物等高风险领域，通过人工标注与自动化筛选相结合的方式，建立起多维度分类体系，为后续模型对抗训练提供高质量样本基础。

特点

该数据集显著特点在于其针对前沿语言模型安全漏洞的专向性设计，涵盖六大高危行为类别并配备唯一行为标识符，支持精准的行为追踪与分析。数据集内置的优化目标字段为研究者提供了对抗样本生成的方向指引，而标准化JSONL格式则确保了数据的高兼容性与批处理效率。其内容设计既考虑了学术研究的严谨性，也兼顾了实际部署的便利性，成为评估模型抗 jailbreak 能力的重要基准工具。

使用方法

研究者可通过配置OpenAI API密钥接入GPT-4.1-mini作为评判模型，利用提供的奖励函数计算脚本对测试提示进行风险评估。使用前需通过uv工具安装依赖环境，并部署兼容OpenAI接口的本地模型端点。运行示例脚本时需指定模型服务地址，系统将自动计算PRBO奖励值以量化提示的对抗强度。需要注意的是，大规模调用商用API可能触发安全监测机制，建议在符合政策规范的前提下谨慎开展实验。

背景与挑战

背景概述

由Neil Chowdhury、Sarah Schwettmann和Jacob Steinhardt等人于2025年9月发布的jailbreak_dataset，专注于前沿语言模型的安全漏洞探测研究。该数据集旨在系统化地测试和揭示大型语言模型在有害内容生成方面的潜在风险，特别是在化学、生物、核能等敏感领域的安全防护机制。其发布通过Transluce研究平台公开，为AI安全社区提供了重要的基准资源，推动了对抗性攻击与防御策略的研究进展。

当前挑战

该数据集核心挑战在于解决语言模型对抗性攻击的泛化性与隐蔽性问题，要求生成的越狱提示既能有效绕过多种前沿模型的安全防护，又需保持语义合理性和上下文连贯性。构建过程中面临标注一致性难题，需精确分类多领域有害行为并平衡敏感内容的覆盖范围，同时避免触发生产API的监控机制，确保研究合规性。

常用场景

经典使用场景

在人工智能安全研究领域，jailbreak_dataset为评估大语言模型对抗性攻击提供了标准化测试基准。研究者通过该数据集系统性地构建越狱提示，模拟恶意用户试图绕过模型安全防护机制的行为，从而量化模型在对抗性环境下的脆弱性。该数据集涵盖化学、生物、核能等高风险领域，为模型安全性评估提供了多维度的测试场景。

衍生相关工作

基于该数据集衍生的经典工作包括自动化越狱代理训练框架、多模型安全基准测试平台以及动态防御机制研究。研究者通过扩展数据集的攻击向量开发了更强大的对抗性攻击方法，同时催生了新一代防御技术如自适应安全对齐和实时攻击检测系统，显著推动了AI安全领域的理论创新和技术进步。

数据集最近研究