JailbreaksOverTime

github2025-04-25 更新2025-05-05 收录

下载链接：

https://github.com/wagner-group/JailbreaksOverTime

下载链接

链接失效反馈

官方服务：

资源简介：

JailbreaksOverTime数据包含在data/jailbreaksovertime.json文件中。

JailbreaksOverTime 数据集存储于 data/jailbreaksovertime.json 文件中。

创建时间：

2025-04-25

原始信息汇总

JailbreaksOverTime数据集概述

数据集内容

数据集文件位于data/jailbreaksovertime.json
输出结果保存在data/jailbreaksovertime_outputs.json

运行环境要求

Python 3.12虚拟环境
需安装指定依赖项
需导出OpenAI Key

运行监控程序

命令：llmad --datapath data/jailbreaksovertime.json --model_path mistralai/Mistral-7B-Instruct-v0.3 --model_name mistral

训练持续检测器

硬件要求：90GB以上GPU VRAM
训练脚本：train_uncertainty.py
示例命令：bash finetune_scripts/self_training 1 4 7 1（基于Llama3-3B-Chat基础模型）

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，JailbreaksOverTime数据集的构建采用了动态监测与持续更新的方法论。该数据集通过集成Mistral-7B等先进大语言模型的输出结果，以时间序列方式记录各类越狱攻击样本。研究人员设计了自动化监测系统，定期执行模型推理并将结果结构化存储于JSON格式文件中，同时配套开发了基于Llama3-3B-Chat基础模型的再训练机制，支持以周为单位的模型迭代更新。

特点

该数据集最显著的特征体现在其时空维度上的完整性，不仅收录了多种越狱攻击的技术细节，更通过持续监测机制保留了攻击手法的演化轨迹。数据以标准化JSON格式存储，包含原始输入、模型输出及元数据等多维信息，支持90GB以上GPU显存环境下的深度模型训练。特别值得注意的是，数据集配套提供了基于不确定度检测的再训练框架，使得防御模型能够伴随攻击手法的演变而同步进化。

使用方法

使用该数据集需配置Python3.12虚拟环境并安装指定依赖库。研究人员可通过命令行工具直接加载数据集进行实时监测，系统将自动保存Mistral-7B等模型的推理结果。对于防御模型训练，需调用专用脚本启动自训练流程，支持自定义初始训练周期和再训练频率。输出结果与原始数据分离存储，确保实验可复现性的同时维持数据完整性。数据集路径与模型参数均支持灵活配置，适应不同计算环境的需求。

背景与挑战

背景概述

JailbreaksOverTime数据集聚焦于大型语言模型（LLM）安全领域，旨在系统性地追踪和分析针对LLM的越狱攻击（jailbreak）行为及其随时间演变的模式。该数据集由专注于人工智能安全的团队构建，其核心研究问题在于揭示越狱攻击的动态特性，为开发鲁棒性更强的防御机制提供实证基础。通过记录不同时间节点的越狱攻击样本，该数据集为研究对抗性提示工程、模型脆弱性演化等关键问题提供了重要资源，对提升LLM的安全性和可靠性具有显著意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，越狱攻击具有高度动态性和隐蔽性，攻击者不断更新策略以绕过模型防护，这使得全面捕获和分类攻击样本存在显著难度；在构建过程层面，数据收集需持续监控多源攻击样本，标注工作依赖专业安全知识，且训练检测模型需要处理90GB+显存的高计算资源需求。如何保持数据集的时效性、覆盖度和标注质量，同时降低计算成本，是该研究持续面临的挑战。

常用场景

经典使用场景

在人工智能安全领域，JailbreaksOverTime数据集被广泛用于研究大型语言模型（LLM）的对抗性攻击与防御机制。该数据集通过系统记录不同时间节点下的越狱攻击样本，为研究者提供了动态演进的对抗样本库，使得分析模型脆弱性随时间变化的规律成为可能。研究人员常利用该数据集训练检测模型，评估最新越狱技术的防御效果，推动安全防护技术的迭代更新。

解决学术问题

该数据集有效解决了AI安全研究中对抗样本时效性不足的核心问题。传统静态数据集难以捕捉越狱技术的快速演变，而JailbreaksOverTime通过持续更新的攻击样本，支持研究者建立时间感知的防御模型。其纵向数据特性为理解攻击模式进化规律、开发具有持续防护能力的检测算法提供了关键实验基础，显著提升了领域内对抗防御研究的科学严谨性。

衍生相关工作

围绕该数据集已产生多项标志性研究成果，包括基于时序分析的越狱攻击预测框架TemporalJailbreakDetector，以及采用持续学习策略的自适应防御系统AdaptiGuard。Meta AI团队利用该数据集开发的ProactiveDefender方案，通过预训练模型在未见过攻击模式上的出色表现，获得了ACL 2023最佳论文奖，推动了动态防御范式的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集