five

JBShield Dataset|网络安全数据集|自然语言处理数据集

收藏
github2025-03-11 更新2025-02-22 收录
网络安全
自然语言处理
下载链接:
https://github.com/NISPLab/JBShield
下载链接
链接失效反馈
资源简介:
我们的数据集位于`./data`目录下。jailbreak prompts位于`./data/jailbreak`,而有害和无害的prompts分别位于`./data/harmful{}.csv`和`./data/harmless{}.csv`。我们将数据随机分为校准集和测试集。校准数据位于`./data/jailbreak/{jailbreak_name}/{model_name}_calibration.json`,测试数据位于`./data/jailbreak/{jailbreak_name}/{model_name}_test.json`。
创建时间:
2025-02-11
原始信息汇总

JBShield 数据集概述

数据集简介

  • 数据集名称:JBShield
  • 数据集用途:用于研究防御大型语言模型免受越狱攻击的方法
  • 论文信息:发表于第34届USENIX安全研讨会(2025年)
  • 论文arXiv链接:arXiv: 2502.07557
  • 数据集许可证:MIT

硬件要求

  • 最小硬件要求:两块至少24GB VRAM的GPU(例如RTX 3090或RTX 4090)
  • 推荐硬件配置:4 RTX 4090 GPUs(每块24GB VRAM)或1 A100 GPUs(80GB VRAM)

环境要求

  • Python版本:3.12.8
  • PyTorch版本:2.5.1
  • 推荐使用:Anaconda或miniconda

数据集结构

  • 数据集位置:./data
  • 越狱提示位置:./data/jailbreak
  • 有害和无害提示位置:./data/harmful{.csv}./data/harmless{.csv}
  • 校准数据位置:./data/jailbreak/{jailbreak_name}/{model_name}_calibration.json
  • 测试数据位置:./data/jailbreak/{jailbreak_name}/{model_name}_test.json

模型准备

  • 目标LLM模型:Mistral-7B-Instruct-v0.2, Llama-2-7b-chat-hf, Meta-Llama-3-8B-Instruct, vicuna-7b-v1.5, vicuna-13b-v1.5
  • 评估LLM模型:ft-mistral-7b-instruct-v0.2-sorry-bench-202406

数据集组成

  • 越狱提示:包含用于攻击的提示
  • 有害和无害提示:分别包含有害和无害的提示数据

代码和结果

  • 概念分析代码和结果:用于分析五个目标LLM的概念相关令牌
  • 检测性能结果:JBShield-D在不同LLM上的检测性能(准确率/F1分数)
  • 缓解性能结果:JBShield-M在不同LLM上的缓解性能(攻击成功率)

引用

tex @misc{zhang2025jbshield, title={JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation}, author={Shenyi Zhang and Yuchen Zhai and Keyan Guo and Hongxin Hu and Shengnan Guo and Zheng Fang and Lingchen Zhao and Chao Shen and Cong Wang and Qian Wang}, year={2025}, eprint={2502.07557}, archivePrefix={arXiv}, primaryClass={cs.CR} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
JBShield 数据集的构建旨在针对大型语言模型面临的越狱攻击进行防御。该数据集的构建方法包括将越狱提示、有害和无害提示进行分类,并将数据随机分为校准集和测试集,以便于对模型进行校准和评估。
使用方法
使用JBShield 数据集时,首先需要准备相应的硬件环境,安装Python 3及Pytorch等依赖库。然后,根据数据集的结构,下载目标模型,并执行脚本进行概念分析、越狱检测性能评估和越狱缓解性能评估。评估结果将保存在指定日志文件中。
背景与挑战
背景概述
JBShield 数据集是一项针对大型语言模型防御 jailbreak 攻击的研究成果,该数据集及相关研究由 Shenyi Zhang 等人发起,并于 2025 年被 34 届 USENIX 安全研讨会接受。此数据集的构建旨在解决大型语言模型在面临 jailbreak 攻击时,如何通过激活概念分析与操作进行有效防御的问题,对模型的安全性研究领域产生了显著影响。
当前挑战
该数据集在构建与使用过程中面临的挑战包括:1) 如何准确识别并防御多样化的 jailbreak 攻击策略;2) 如何在保持模型性能的同时,有效平衡模型的防御能力与资源消耗;3) 在实际应用环境中,如何确保 JBShield 的稳定性和可靠性。
常用场景
经典使用场景
JBShield 数据集在大型语言模型的安全性研究领域中被广泛运用,其经典的使用场景主要在于评估和增强语言模型对于狱破攻击的防御能力。通过对激活概念分析及操作,该数据集为研究者提供了一个可靠的实验平台,以探究不同模型在面对狱破攻击时的表现及防御策略的有效性。
解决学术问题
该数据集解决了大型语言模型在安全领域中的一个关键问题,即如何有效防御狱破攻击。通过提供具有狱破提示和正常提示的样本,以及相应的校准和测试集,研究者能够利用JBShield数据集来评估和改进模型的防御机制,从而提高模型在对抗环境下的鲁棒性。
实际应用
在实际应用中,JBShield 数据集的应用场景包括但不限于模型安全性的测试、模型训练过程中的安全增强,以及为狱破攻击检测与缓解技术提供实验基础。企业和研究机构可以使用该数据集来评估其语言模型系统的安全性,并采取相应措施以防止潜在的恶意攻击。
数据集最近研究
最新研究方向
近年来,大型语言模型在自然语言处理领域取得了显著的进展,但同时也面临着诸如越狱攻击等安全性挑战。JBShield 数据集的构建旨在应对这一挑战,通过激活概念分析与操纵来防御大型语言模型的越狱攻击。该数据集为相关领域的研究者提供了实验基础,使得研究者能够评估和改进防御机制的有效性。JBShield 数据集的研究方向聚焦于大型语言模型的安全性,特别是在防御策略的实证评估和概念操纵方面的探索,对于保障人工智能系统的可靠性和安全性具有重要的理论和实际意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录

新型人类活动识别数据集

该数据集由都灵理工大学和马尔默大学合作创建,包含7类活动,利用60 GHz毫米波FMCW雷达在真实环境中收集。数据集旨在支持机器学习和深度学习模型在人类活动识别方面的研究,特别是对雷达特征图的时空结构进行保留的多维特征向量。数据集将公开,以推动FMCW雷达在智能环境监测中的应用研究。

arXiv 收录