JAILJUDGE

github2024-10-14 更新2024-10-16 收录

下载链接：

https://github.com/usail-hkust/Jailjudge

下载链接

链接失效反馈

官方服务：

资源简介：

JAILJUDGE数据集是一个综合评估基准，包含多种风险场景下的复杂恶意提示（如合成、对抗、自然语言和多语言场景等）以及高质量的人工标注测试数据集。具体包括超过35k条指令调优训练数据和两个测试集（4.5k+广义风险场景和6k+多语言示例），为全面的越狱评估提供了丰富的数据基础。

The JAILJUDGE dataset is a comprehensive evaluation benchmark that covers complex malicious prompts across diverse risk scenarios (e.g., synthetic, adversarial, natural language, multilingual scenarios) and high-quality manually annotated test datasets. Specifically, it includes over 35,000 instruction-tuning training samples, along with two test sets: one with more than 4,500 generalized risk scenario samples and another with over 6,000 multilingual examples, providing a rich data foundation for comprehensive jailbreak evaluations.

创建时间：

2024-10-10

原始信息汇总

JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework

概述

JAILJUDGE是一个全面的越狱评估基准，旨在解决当前评估方法在解释性和复杂场景泛化性方面的不足。该基准包括多种风险场景，如合成、对抗、自然和多语言场景，并附有高质量的人工标注测试数据集。

数据集组成

训练数据：包含超过35k条带有推理解释的指令调优训练数据。
测试数据：包括4.5k+条广泛风险场景的标注数据和6k+条多语言场景的标注数据，涵盖十种语言。

评估框架

JAILJUDGE提出了一种多代理越狱评估框架，通过多个代理（评判、投票和推理代理）提供细粒度的评估、推理解释和越狱评分，使评估过程明确且可解释。

数据集下载

训练数据：JAILJUDGETRAIN
测试数据：JAILJUDGE ID 和 JAILJUDGE OOD

数据集可从Hugging Face路径 usail-hkust/JailJudge 下载。

模型准备

攻击模型

AdvPrompter：需要训练AdvPrompter模型以获取LoRA适配器并合并模型，保存到 ./models/attack/。
AmpleGCG：如果无法直接加载Hugging Face模型，需先下载 osunlp/AmpleGCG-llama2-sourced-llama2-7b-chat 和 osunlp/AmpleGCG-llama2-sourced-vicuna-7b。

防御模型

RPO：需运行原始仓库中的RPO方法以获取防御对抗后缀。
Advertorial Training 和 Safety Training：需训练对抗训练和安全训练模型，保存到 ./models/defense/。

评判模型

Jailjudge-guard：可从Hugging Face路径 usail-hkust/JailJudge-guard 下载，保存到 ./models/judge/。

使用方法

多代理评判框架

通过运行 python main_multi_agent_judge.py 启动多代理评判框架。

JAILJUDGE Guard 和越狱增强器

JAILJUDGE作为攻击增强器：提供了多种攻击增强方法的脚本，如AutoDAN、PAIR、AmpleGCG和AdvPrompter。
JAILJUDGE作为防御方法：提供了多种防御方法的脚本，如AutoDAN、PAIR、AmpleGCG和AdvPrompter。

参考

在项目实现中，参考了以下仓库的代码：

JailTrickBench (NeurIPS 2024)
Llama-Guard3 (Meta)
ShieldGemma (Google)

搜集汇总

数据集介绍

构建方式

JAILJUDGE数据集的构建基于对大型语言模型（LLMs）安全性的深入研究，旨在评估和提升LLMs对越狱攻击的防御能力。该数据集包括超过35,000条带有推理解释的指令调优训练数据，以及两个测试集，分别涵盖4,500多个广泛风险场景和6,000多个多语言场景。通过多代理越狱判断框架，JAILJUDGE数据集不仅提供了详细的推理解释，还实现了从1到10的细粒度评估，使得评估过程更加透明和可解释。

使用方法

使用JAILJUDGE数据集时，用户需首先安装相关依赖并配置OpenAI API密钥。接着，准备攻击模型、防御模型和判断模型，如AdvPrompter、AmpleGCG和Jailjudge-guard。数据集可通过Hugging Face路径下载，包括训练数据和测试数据。用户可通过运行多代理判断框架脚本进行评估，并根据需要调整攻击和防御方法的参数，以实现对LLMs安全性的全面评估。

背景与挑战

背景概述

随着大型语言模型（LLMs）的广泛应用，确保其安全性成为研究焦点。JAILJUDGE数据集由一支专注于提升LLMs安全性的研究团队开发，旨在评估和增强模型对越狱攻击的防御能力。该数据集包含了超过35,000条带有推理解释的指令调优训练数据，以及4,500+条广泛风险场景和6,000+条多语言场景的标注数据。JAILJUDGE不仅提供了详细的推理解释和细粒度评估，还通过多代理越狱评判框架，使决策过程透明化，从而提升了评估质量。该数据集的开发对于推动LLMs安全研究具有重要意义，尤其是在复杂和多语言环境下，为模型的安全评估提供了坚实的基础。

当前挑战

JAILJUDGE数据集面临的挑战主要集中在评估方法的复杂性和多语言场景的适应性。当前的评估方法缺乏解释性，且在复杂场景中表现不佳，如GPT-4在复杂场景中的F1得分仅为55%。此外，多语言场景下的偏差评估也是一个重要问题。构建过程中，数据集需要处理大量复杂的恶意提示，包括合成、对抗、自然和多语言场景，这增加了数据标注和模型训练的难度。JAILJUDGE通过引入多代理框架和细粒度评估，试图解决这些挑战，但其在大规模应用中的稳定性和效率仍需进一步验证。

常用场景

经典使用场景

JAILJUDGE数据集在评估大型语言模型（LLMs）的安全性方面具有经典应用场景。通过包含多种复杂风险场景的恶意提示，如合成、对抗、真实世界和多语言场景，JAILJUDGE提供了一个全面的评估基准。其多代理增强解释评估框架（JailJudge MultiAgent）能够提供详细的推理解释和细粒度的评估，使得对LLMs的防御能力评估更加透明和可解释。

解决学术问题

JAILJUDGE数据集解决了当前评估方法在解释性和泛化能力上的不足，特别是在复杂场景和多语言环境中的评估问题。通过提供高质量的人工标注测试数据和多代理评估框架，JAILJUDGE显著提升了评估的准确性和完整性，为学术界提供了更可靠的评估工具，推动了LLMs安全研究的发展。

实际应用

JAILJUDGE数据集在实际应用中主要用于增强大型语言模型的安全性和防御能力。通过训练和测试数据，JAILJUDGE Guard模型能够提供细粒度的评估和推理解释，帮助开发者在实际部署中更好地识别和防御恶意攻击。此外，JAILJUDGE还衍生出了JailBoost和GuardShield等工具，进一步提升了攻击和防御的效果。

数据集最近研究