JailBench

Name: JailBench
Creator: 北京邮电大学可信分布式计算与服务教育部重点实验室
Published: 2025-02-26 16:36:42
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/STAIR-BUPT/JailBench

下载链接

链接失效反馈

官方服务：

资源简介：

JailBench是由北京邮电大学可信分布式计算与服务教育部重点实验室创建的一个全面的中文安全性评估基准，旨在评估大型语言模型（LLM）在中文语境下的深层安全漏洞。该数据集包含10,800个查询，涵盖了5个不同的风险领域和40种具体的风险类型，通过自动化的数据扩展方法和创新的自动越狱提示工程框架（AJPE），提高了评估的有效性和效率。JailBench可以广泛应用于大型语言模型的安全性评估，特别是在中文语境下，有助于揭示模型的安全性和可信度方面的改进空间。

JailBench is a comprehensive Chinese safety evaluation benchmark developed by the Key Laboratory of Trusted Distributed Computing and Services of the Ministry of Education, Beijing University of Posts and Telecommunications. It is designed to assess the deep-seated security vulnerabilities of large language models (LLMs) within the Chinese context. This dataset contains 10,800 queries covering 5 distinct risk domains and 40 specific risk types. Through automated data expansion methods and an innovative automatic jailbreak prompt engineering framework (AJPE), it improves the effectiveness and efficiency of the evaluation process. JailBench can be widely applied to the safety evaluation of large language models, particularly in the Chinese context, and helps reveal the potential areas for improving model security and credibility.

提供机构：

北京邮电大学可信分布式计算与服务教育部重点实验室

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

JailBench数据集的构建，首先是通过与安全领域专家合作，结合中国语言和文化背景，制定了一个两级的层次化安全分类标准，包含5个不同的风险领域和40个具体的风险类型。其次，通过从公开数据集中收集有害查询，并将其翻译和手动校正，形成了数据集的原始数据。此外，使用提示工程技术，引导ChatGPT进行数据标注，并通过ChatGPT的少样本学习技术生成新的不安全数据实例，以扩充数据集。最后，通过集成现有的越狱模板和自动化提示生成，利用AJPE框架，生成了超过1000个越狱提示，并与JailBench Seed中的540个问题相结合，构建了包含10800个越狱增强测试案例的JailBench数据集。

特点

JailBench数据集的特点在于其全面性、高效性和先进性。首先，它提供了一个统一的、层次化的安全分类标准，覆盖了广泛的潜在有害场景，确保了对LLMs安全措施的全面评估。其次，它通过上下文学习方法自动扩展数据集，利用LLMs的高级语言能力自动生成评估提示，提高了评估过程的效率和广度。最后，它集成了AJPE框架，利用LLMs的语言能力进行少样本学习，生成更有针对性和上下文感知的越狱提示，提高了越狱攻击的有效性和效率。

使用方法

JailBench数据集的使用方法主要涉及安全评估和越狱攻击。首先，可以通过对LLMs进行安全评估，检测潜在的安全漏洞。其次，可以使用越狱攻击技术，通过自动化提示生成，生成更有针对性的测试提示，以评估LLMs的安全机制。此外，可以通过对越狱提示的效果进行评估，以优化提示生成过程，提高越狱攻击的效率和成功率。最后，可以通过对LLMs的安全性能进行评估，以改进LLMs的安全性和可靠性。

背景与挑战

背景概述

随着大型语言模型（LLMs）在各个应用领域展现出卓越的能力，对其安全性进行全面评估的需求日益凸显。特别是LLMs在中文语言能力上的提升，以及中文表达的独特性和复杂性，推动了中文安全评估基准的诞生。然而，现有的基准往往无法有效揭示LLMs的安全漏洞。为了填补这一空白，刘树义等人引入了JailBench，这是首个全面评估LLMs深层次安全漏洞的中文基准，它采用了一种精炼的层次化安全分类法，适用于中文语境。为了提高生成效率，研究人员采用了创新的自动越狱提示工程师（AJPE）框架来构建JailBench，该框架结合了越狱技术，并通过上下文学习自动扩展数据集。JailBench已在13种主流LLMs上进行了广泛评估，并实现了对ChatGPT的最高攻击成功率，证明了其在揭示LLMs潜在漏洞方面的有效性。

当前挑战

JailBench面临的主要挑战包括：1) 所解决的领域问题：JailBench旨在评估LLMs的安全性，特别是在中文语境下的潜在漏洞。随着LLMs能力的增强，其防御机制也越来越复杂，这使得评估其安全性成为一个挑战。2) 构建过程中所遇到的挑战：为了确保基准的全面性和有效性，研究人员必须收集和生成大量有害查询，并对其进行分类和验证。此外，由于LLMs的防御机制不断更新，JailBench需要不断更新以保持其有效性。

常用场景

经典使用场景

在大型语言模型（LLMs）的安全评估中，JailBench数据集提供了一个全面的中文安全评估基准，特别针对中国语言和文化的独特性。它通过一个精细的分层安全分类法，涵盖了广泛的潜在有害场景，确保了对LLMs安全措施的全面评估。此外，JailBench还采用了创新的自动逃脱提示工程师（AJPE）框架，利用LLMs的语言能力自动扩展数据集，提高了评估过程的效率和广度。

衍生相关工作

JailBench数据集的提出和实现，引发了一系列相关的研究工作。例如，一些研究工作探索了如何利用JailBench数据集来提高LLMs的安全性，以及如何利用JailBench数据集来开发更有效的逃脱攻击技术。此外，一些研究工作还探讨了如何将JailBench数据集扩展到其他语言和文化背景下，以进行更全面的LLMs安全评估。

数据集最近研究