JAILBREAKSOVERTIME

Name: JAILBREAKSOVERTIME
Creator: 加州大学伯克利分校
Published: 2025-04-28 11:01:51
License: 暂无描述

arXiv2025-04-28 更新2025-04-30 收录

下载链接：

https://github.com/wagner-group/JailbreaksOverTime

下载链接

链接失效反馈

官方服务：

资源简介：

JAILBREAKSOVERTIME是一个包含时间戳的真实用户交互数据集，其中包含良性和越狱尝试请求，收集了10个月的时间。该数据集旨在研究越狱检测系统在分布转换下的表现，并提出了两种方法来检测新的越狱攻击并持续更新检测器。第一种方法是使用持续学习来检测越狱并快速适应新的越狱攻击。第二种方法是一种无监督的主动监控方法，用于识别新颖的越狱攻击。该数据集可以帮助研究人员和实践者更好地理解越狱攻击，并开发更有效的检测方法。

JAILBREAKSOVERTIME is a timestamped real-world user interaction dataset containing both benign and jailbreak attempt requests, collected over a 10-month period. This dataset aims to investigate the performance of jailbreak detection systems under distribution shifts, and proposes two approaches for detecting novel jailbreak attacks and continuously updating detectors. The first approach uses continual learning to detect jailbreaks and rapidly adapt to new jailbreak attacks. The second approach is an unsupervised active monitoring method for identifying novel jailbreak attacks. This dataset can help researchers and practitioners better understand jailbreak attacks and develop more effective detection methods.

提供机构：

加州大学伯克利分校

创建时间：

2025-04-28

原始信息汇总

JailbreaksOverTime数据集概述

数据集内容

数据集文件位于data/jailbreaksovertime.json。
输出结果保存在data/jailbreaksovertime_outputs.json。

运行要求

需要创建Python 3.12虚拟环境。
需安装相关依赖并导出OpenAI Key。

运行监控

使用命令llmad --datapath data/jailbreaksovertime.json --model_path mistralai/Mistral-7B-Instruct-v0.3 --model_name mistral运行主动监控。

训练要求

训练连续检测器需要90GB以上的GPU VRAM。
使用train_uncertainty.py脚本进行训练。
示例命令：bash finetune_scripts/self_training 1 4 7 1（基于Llama3-3B-Chat基础模型，初始训练1个月，每周重新训练）。

搜集汇总

数据集介绍

构建方式

JAILBREAKSOVERTIME数据集通过整合来自JailbreakChat、JailbreakHub和Wildchat三个主要数据源的信息，构建了一个时间跨度长达10个月的全面基准测试集。数据收集过程包括对JailbreakChat网站历史快照的爬取与插值处理，对JailbreakHub数据的清洗与人工重标注，以及从Wildchat中筛选良性查询。研究团队采用分层抽样策略，结合新手用户（基于累计投票）和经验用户（基于投票变化率）的行为模型，模拟真实场景中的攻击演化过程。每个恶意提示由通用越狱模板和随机分配的有害载荷组合而成，确保了数据多样性和现实代表性。

特点

该数据集的核心价值在于其时间维度特性，首次系统性地捕捉了越狱攻击的分布漂移现象。包含3,900个带时间戳的越狱攻击样本和19,650个良性查询，覆盖2023年2月至12月的真实用户交互。数据经过严格的质量控制，包括去重处理、模板标准化和有害载荷的唯一性验证。特别值得注意的是，数据集通过JailbreakChat的投票机制反映了攻击技术的流行度变化，为研究概念漂移提供了量化依据。每个样本都标注了精确的时间信息，支持对检测器时效性的纵向研究。

使用方法

使用该数据集时，研究者可采用两种互补方法：连续检测器和主动监控系统。连续检测器建议以第一个月数据作为初始训练集，之后通过自训练策略（每周用模型自身预测结果重新训练）来适应分布漂移。主动监控系统则通过毒性过滤、模板分离和可靠标注三步流程，无需训练即可识别新型攻击。评估时应区分整体越狱意图（81.5%检出率）和实际有效攻击（95.9%检出率）两个指标。对于对抗样本检测，建议额外测试AutoDAN和GCG等未包含在训练集中的自动化攻击技术。

背景与挑战

背景概述

JAILBREAKSOVERTIME数据集由加州大学伯克利分校的研究团队于2025年提出，旨在解决大型语言模型(LLM)安全防护中的越狱攻击检测问题。该数据集收录了10个月内真实用户与聊天机器人的交互记录，包含3,900个越狱攻击样本和19,650个良性查询，时间跨度为2023年2月至12月。研究团队通过整合JailbreakChat网站、JailbreakHub数据集和Wildchat数据源，构建了这个全面反映越狱攻击演变的基准测试集。该数据集的核心价值在于首次系统性地捕捉了越狱攻击在时间维度上的分布漂移现象，为研究持续学习框架下的安全防御机制提供了重要基础。

当前挑战

JAILBREAKSOVERTIME数据集面临的主要挑战体现在两个方面：首先在领域问题层面，越狱攻击呈现出持续演变的特性，导致传统静态检测模型的性能随时间显著下降，如实验显示固定检测器在9个月内误报率从0.2%上升至5.5%；其次在构建过程中，研究团队需要解决跨平台数据整合的难题，包括对JailbreakHub数据的重新标注验证、JailbreakChat投票数据的时空插值处理，以及通过毒性检测从Wildchat中筛选真实良性样本。此外，通用型越狱攻击与特定用途攻击的区分、攻击模板与有害载荷的分离标注等技术挑战也增加了数据集构建的复杂度。

常用场景

经典使用场景

JAILBREAKSOVERTIME数据集在大型语言模型（LLM）安全研究领域具有重要价值，尤其在检测和防御越狱攻击（jailbreak attacks）方面。该数据集收录了10个月内真实用户与聊天机器人的交互记录，包括良性请求和越狱攻击尝试，并附有时间戳。研究者可以利用这一数据集分析越狱攻击的演化趋势，评估检测系统的鲁棒性，并开发能够适应分布漂移（distribution shift）的新型防御方法。数据集的时间维度使其成为研究攻击模式动态变化的理想工具。

解决学术问题

JAILBREAKSOVERTIME数据集解决了LLM安全领域中的多个关键学术问题。首先，它揭示了越狱攻击在时间维度上的分布漂移现象，证明了静态检测模型的局限性。其次，数据集支持连续学习（continuous learning）方法的研究，使模型能够通过自我训练（self-training）适应新型攻击。此外，该数据集为无监督主动监测（active monitoring）技术提供了测试平台，帮助识别未知攻击模式。这些贡献显著提升了学术界对LLM安全威胁动态特性的理解。

衍生相关工作

该数据集已衍生出多项重要研究工作。基于其构建的连续检测器（Continuous Detector）开创了无需人工标注的自我训练防御范式，相关技术被扩展应用于多模态模型安全检测。无监督主动监测方法启发了后续如RePD等基于行为分析的检测框架。数据集的时间标注特性还促进了TemporalGuard等时序感知防御系统的开发，推动了动态安全评估基准的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集