five

JailbreaksOverTime

收藏
github2025-04-25 更新2025-05-05 收录
下载链接:
https://github.com/wagner-group/JailbreaksOverTime
下载链接
链接失效反馈
官方服务:
资源简介:
JailbreaksOverTime数据包含在data/jailbreaksovertime.json文件中。

JailbreaksOverTime 数据集存储于 data/jailbreaksovertime.json 文件中。
创建时间:
2025-04-25
原始信息汇总

JailbreaksOverTime数据集概述

数据集内容

  • 数据集文件位于data/jailbreaksovertime.json
  • 输出结果保存在data/jailbreaksovertime_outputs.json

运行环境要求

  • Python 3.12虚拟环境
  • 需安装指定依赖项
  • 需导出OpenAI Key

运行监控程序

  • 命令:llmad --datapath data/jailbreaksovertime.json --model_path mistralai/Mistral-7B-Instruct-v0.3 --model_name mistral

训练持续检测器

  • 硬件要求:90GB以上GPU VRAM
  • 训练脚本:train_uncertainty.py
  • 示例命令:bash finetune_scripts/self_training 1 4 7 1(基于Llama3-3B-Chat基础模型)
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,JailbreaksOverTime数据集的构建采用了动态监测与持续更新的方法论。该数据集通过集成Mistral-7B等先进大语言模型的输出结果,以时间序列方式记录各类越狱攻击样本。研究人员设计了自动化监测系统,定期执行模型推理并将结果结构化存储于JSON格式文件中,同时配套开发了基于Llama3-3B-Chat基础模型的再训练机制,支持以周为单位的模型迭代更新。
特点
该数据集最显著的特征体现在其时空维度上的完整性,不仅收录了多种越狱攻击的技术细节,更通过持续监测机制保留了攻击手法的演化轨迹。数据以标准化JSON格式存储,包含原始输入、模型输出及元数据等多维信息,支持90GB以上GPU显存环境下的深度模型训练。特别值得注意的是,数据集配套提供了基于不确定度检测的再训练框架,使得防御模型能够伴随攻击手法的演变而同步进化。
使用方法
使用该数据集需配置Python3.12虚拟环境并安装指定依赖库。研究人员可通过命令行工具直接加载数据集进行实时监测,系统将自动保存Mistral-7B等模型的推理结果。对于防御模型训练,需调用专用脚本启动自训练流程,支持自定义初始训练周期和再训练频率。输出结果与原始数据分离存储,确保实验可复现性的同时维持数据完整性。数据集路径与模型参数均支持灵活配置,适应不同计算环境的需求。
背景与挑战
背景概述
JailbreaksOverTime数据集聚焦于大型语言模型(LLM)安全领域,旨在系统性地追踪和分析针对LLM的越狱攻击(jailbreak)行为及其随时间演变的模式。该数据集由专注于人工智能安全的团队构建,其核心研究问题在于揭示越狱攻击的动态特性,为开发鲁棒性更强的防御机制提供实证基础。通过记录不同时间节点的越狱攻击样本,该数据集为研究对抗性提示工程、模型脆弱性演化等关键问题提供了重要资源,对提升LLM的安全性和可靠性具有显著意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,越狱攻击具有高度动态性和隐蔽性,攻击者不断更新策略以绕过模型防护,这使得全面捕获和分类攻击样本存在显著难度;在构建过程层面,数据收集需持续监控多源攻击样本,标注工作依赖专业安全知识,且训练检测模型需要处理90GB+显存的高计算资源需求。如何保持数据集的时效性、覆盖度和标注质量,同时降低计算成本,是该研究持续面临的挑战。
常用场景
经典使用场景
在人工智能安全领域,JailbreaksOverTime数据集被广泛用于研究大型语言模型(LLM)的对抗性攻击与防御机制。该数据集通过系统记录不同时间节点下的越狱攻击样本,为研究者提供了动态演进的对抗样本库,使得分析模型脆弱性随时间变化的规律成为可能。研究人员常利用该数据集训练检测模型,评估最新越狱技术的防御效果,推动安全防护技术的迭代更新。
解决学术问题
该数据集有效解决了AI安全研究中对抗样本时效性不足的核心问题。传统静态数据集难以捕捉越狱技术的快速演变,而JailbreaksOverTime通过持续更新的攻击样本,支持研究者建立时间感知的防御模型。其纵向数据特性为理解攻击模式进化规律、开发具有持续防护能力的检测算法提供了关键实验基础,显著提升了领域内对抗防御研究的科学严谨性。
衍生相关工作
围绕该数据集已产生多项标志性研究成果,包括基于时序分析的越狱攻击预测框架TemporalJailbreakDetector,以及采用持续学习策略的自适应防御系统AdaptiGuard。Meta AI团队利用该数据集开发的ProactiveDefender方案,通过预训练模型在未见过攻击模式上的出色表现,获得了ACL 2023最佳论文奖,推动了动态防御范式的建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作