JBShield Dataset

github2025-03-11 更新2025-02-22 收录

下载链接：

https://github.com/NISPLab/JBShield

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集位于`./data`目录下。jailbreak prompts位于`./data/jailbreak`，而有害和无害的prompts分别位于`./data/harmful{}.csv`和`./data/harmless{}.csv`。我们将数据随机分为校准集和测试集。校准数据位于`./data/jailbreak/{jailbreak_name}/{model_name}_calibration.json`，测试数据位于`./data/jailbreak/{jailbreak_name}/{model_name}_test.json`。

本数据集存放于`./data`目录下。越狱提示词（jailbreak prompts）存放于`./data/jailbreak`子目录中，有害提示词与无害提示词分别存储于`./data/harmful{}.csv`与`./data/harmless{}.csv`文件内。本数据集将被随机划分为校准集与测试集，其中校准数据位于`./data/jailbreak/{jailbreak_name}/{model_name}_calibration.json`，测试数据存放于`./data/jailbreak/{jailbreak_name}/{model_name}_test.json`。

创建时间：

2025-02-11

原始信息汇总

JBShield 数据集概述

数据集简介

数据集名称：JBShield
数据集用途：用于研究防御大型语言模型免受越狱攻击的方法
论文信息：发表于第34届USENIX安全研讨会（2025年）
论文arXiv链接：arXiv: 2502.07557
数据集许可证：MIT

硬件要求

最小硬件要求：两块至少24GB VRAM的GPU（例如RTX 3090或RTX 4090）
推荐硬件配置：4 RTX 4090 GPUs（每块24GB VRAM）或1 A100 GPUs（80GB VRAM）

环境要求

Python版本：3.12.8
PyTorch版本：2.5.1
推荐使用：Anaconda或miniconda

数据集结构

数据集位置：./data
越狱提示位置：./data/jailbreak
有害和无害提示位置：./data/harmful{.csv} 和 ./data/harmless{.csv}
校准数据位置：./data/jailbreak/{jailbreak_name}/{model_name}_calibration.json
测试数据位置：./data/jailbreak/{jailbreak_name}/{model_name}_test.json

模型准备

目标LLM模型：Mistral-7B-Instruct-v0.2, Llama-2-7b-chat-hf, Meta-Llama-3-8B-Instruct, vicuna-7b-v1.5, vicuna-13b-v1.5
评估LLM模型：ft-mistral-7b-instruct-v0.2-sorry-bench-202406

数据集组成

越狱提示：包含用于攻击的提示
有害和无害提示：分别包含有害和无害的提示数据

代码和结果

概念分析代码和结果：用于分析五个目标LLM的概念相关令牌
检测性能结果：JBShield-D在不同LLM上的检测性能（准确率/F1分数）
缓解性能结果：JBShield-M在不同LLM上的缓解性能（攻击成功率）

引用

tex @misc{zhang2025jbshield, title={JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation}, author={Shenyi Zhang and Yuchen Zhai and Keyan Guo and Hongxin Hu and Shengnan Guo and Zheng Fang and Lingchen Zhao and Chao Shen and Cong Wang and Qian Wang}, year={2025}, eprint={2502.07557}, archivePrefix={arXiv}, primaryClass={cs.CR} }

搜集汇总

数据集介绍

构建方式

JBShield 数据集的构建旨在针对大型语言模型面临的越狱攻击进行防御。该数据集的构建方法包括将越狱提示、有害和无害提示进行分类，并将数据随机分为校准集和测试集，以便于对模型进行校准和评估。

使用方法

使用JBShield 数据集时，首先需要准备相应的硬件环境，安装Python 3及Pytorch等依赖库。然后，根据数据集的结构，下载目标模型，并执行脚本进行概念分析、越狱检测性能评估和越狱缓解性能评估。评估结果将保存在指定日志文件中。

背景与挑战

背景概述

JBShield 数据集是一项针对大型语言模型防御 jailbreak 攻击的研究成果，该数据集及相关研究由 Shenyi Zhang 等人发起，并于 2025 年被 34 届 USENIX 安全研讨会接受。此数据集的构建旨在解决大型语言模型在面临 jailbreak 攻击时，如何通过激活概念分析与操作进行有效防御的问题，对模型的安全性研究领域产生了显著影响。

当前挑战

该数据集在构建与使用过程中面临的挑战包括：1) 如何准确识别并防御多样化的 jailbreak 攻击策略；2) 如何在保持模型性能的同时，有效平衡模型的防御能力与资源消耗；3) 在实际应用环境中，如何确保 JBShield 的稳定性和可靠性。

常用场景

经典使用场景

JBShield 数据集在大型语言模型的安全性研究领域中被广泛运用，其经典的使用场景主要在于评估和增强语言模型对于狱破攻击的防御能力。通过对激活概念分析及操作，该数据集为研究者提供了一个可靠的实验平台，以探究不同模型在面对狱破攻击时的表现及防御策略的有效性。

解决学术问题

该数据集解决了大型语言模型在安全领域中的一个关键问题，即如何有效防御狱破攻击。通过提供具有狱破提示和正常提示的样本，以及相应的校准和测试集，研究者能够利用JBShield数据集来评估和改进模型的防御机制，从而提高模型在对抗环境下的鲁棒性。

实际应用

在实际应用中，JBShield 数据集的应用场景包括但不限于模型安全性的测试、模型训练过程中的安全增强，以及为狱破攻击检测与缓解技术提供实验基础。企业和研究机构可以使用该数据集来评估其语言模型系统的安全性，并采取相应措施以防止潜在的恶意攻击。

数据集最近研究