JailbreakBench

Name: JailbreakBench
Creator: 宾夕法尼亚大学
Published: 2024-04-24 00:41:42
License: 暂无描述

arXiv2024-04-24 更新2024-06-21 收录

下载链接：

https://github.com/JailbreakBench/jailbreakbench

下载链接

链接失效反馈

官方服务：

资源简介：

JailbreakBench是一个开放的鲁棒性基准，用于评估大型语言模型（LLMs）的越狱攻击。该数据集包含100种行为，旨在与OpenAI的使用政策保持一致。数据集的创建过程涉及收集和标准化先进的对抗性提示，以及开发一个评估框架，该框架包括明确的威胁模型、系统提示、聊天模板和评分函数。JailbreakBench的应用领域主要集中在提高LLMs对越狱攻击的抵抗力，确保模型在安全关键领域的部署更为安全。

JailbreakBench is an open-access robustness benchmark for evaluating jailbreak attacks against large language models (LLMs). This dataset contains 100 behaviors that are aligned with OpenAI's usage policies. The creation of the dataset involves collecting and standardizing state-of-the-art adversarial prompts, as well as developing an evaluation framework that includes a clear threat model, system prompts, chat templates, and scoring functions. The primary use cases of JailbreakBench center on enhancing the resilience of LLMs against jailbreak attacks, and ensuring safer deployment of the models in safety-critical domains.

提供机构：

宾夕法尼亚大学

创建时间：

2024-03-28

搜集汇总

数据集介绍

构建方式

JailbreakBench 数据集的构建旨在解决现有大型语言模型（LLMs）在越狱攻击评估中的不足。该数据集包括一个不断更新的最先进对抗性提示库，称为越狱工件，以及一个包含100种行为的越狱数据集，这些行为既包括原创也包括从先前工作中提取的内容，均符合OpenAI的使用政策。此外，数据集还提供了一个标准化的评估框架，包括明确的威胁模型、系统提示、聊天模板和评分函数，以及一个跟踪各种LLMs攻击和防御性能的排行榜。

使用方法

使用 JailbreakBench 数据集，研究人员可以访问和分析最先进的越狱攻击和防御工件，通过标准化的评估框架对新的攻击和防御算法进行基准测试。数据集提供了详细的文档和代码示例，使得用户可以轻松地加载和查询模型，进行红队测试和防御评估。此外，用户可以通过提交新的攻击、防御算法和目标模型到数据集的排行榜，参与社区的协作和竞争，推动LLMs安全性的研究进展。

背景与挑战

背景概述

随着大型语言模型（LLMs）在各个领域的广泛应用，确保其安全性和道德性变得尤为重要。LLMs通常经过训练以遵循人类价值观，拒绝生成有害或不道德的内容。然而，越来越多的研究表明，即使是性能最优的LLMs也并非完全对抗性对齐，通过所谓的‘越狱攻击’可以诱导其生成不受欢迎的内容。为了应对这一挑战，Patrick Chao等研究人员于2024年推出了JailbreakBench数据集，这是一个开源的鲁棒性基准，旨在评估和提升LLMs在面对越狱攻击时的表现。该数据集由宾夕法尼亚大学、苏黎世联邦理工学院和洛桑联邦理工学院等多个机构合作开发，核心研究问题是如何标准化和系统化地评估LLMs的越狱攻击及其防御机制。JailbreakBench的推出对相关领域产生了深远影响，为研究人员提供了一个统一的评估框架，有助于推动LLMs安全性的研究和发展。

当前挑战

JailbreakBench数据集在构建和应用过程中面临多项挑战。首先，缺乏关于越狱攻击评估的标准实践，导致现有工作在计算成本和成功率方面不可比。其次，许多研究由于未公开对抗性提示、涉及闭源代码或依赖不断更新的专有API而不可复现。此外，评估越狱攻击的成功性具有主观性，不同分类器的结果可能存在显著差异。为了应对这些挑战，JailbreakBench提供了标准化的评估框架和可复现的实验环境，但仍需不断更新以适应技术进步和方法论的发展。未来，该数据集需要进一步扩展以涵盖更多威胁模型、攻击和防御机制，并定期重新评估攻击成功率，特别是在闭源LLMs上的表现。

常用场景

经典使用场景

JailbreakBench 数据集的经典使用场景主要集中在评估和提升大型语言模型（LLMs）的安全性。通过提供一个包含100种行为的基准数据集，研究人员可以系统地测试和比较不同模型在面对‘越狱’攻击时的表现。这些攻击旨在诱导模型生成有害、不道德或令人反感的内容。数据集的标准化评估框架和开源的越狱提示库使得研究者能够在一个统一的平台上进行实验，从而推动LLMs在安全性方面的进步。

解决学术问题

JailbreakBench 数据集解决了当前在评估LLMs安全性方面存在的几个关键学术问题。首先，它提供了一个清晰的实践标准，消除了以往在越狱评估中的不一致性。其次，通过标准化成本和成功率的计算方法，使得不同研究之间的比较更加公平。最后，通过公开对抗性提示和评估代码，确保了研究的 reproducibility，这在以往的研究中是一个重大挑战。这些改进有助于推动LLMs安全性研究的发展，并为未来的研究提供了坚实的基础。

实际应用

在实际应用中，JailbreakBench 数据集为开发更安全的LLMs提供了宝贵的资源。通过模拟和测试各种越狱攻击，开发者可以识别和修复模型中的安全漏洞，从而提高其在实际部署中的可靠性。此外，数据集的标准化评估框架和开源的越狱提示库也为企业提供了一个实用的工具，帮助他们在发布前对模型进行全面的安全性测试。这不仅有助于保护用户免受有害内容的侵害，还能增强公众对AI技术的信任。

数据集最近研究