GuidedBench

Name: GuidedBench
Creator: 香港科技大学
Published: 2025-02-24 14:57:27
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://sproutnan.github.io/AI-Safety_Benchmark/

下载链接

链接失效反馈

官方服务：

资源简介：

GuidedBench是由香港科技大学创建的一个评估基准，旨在通过提供一套包含特定恶意问题的数据集，以及详细的评估指南，对越狱方法进行更标准化和公平的评估。该数据集分为核心集和附加集，核心集包含180个所有受害语言模型都会拒绝的问题，附加集包含20个因特定安全政策而只有部分语言模型会拒绝的问题。这些问题设计为直接、简洁的文本指令，而非情景混合案例，以避免耦合。此外，针对每个有害问题案例，都编写了详细的评分指南，关注攻击者实现有害目标所需的关键实体和功能。

GuidedBench is an evaluation benchmark developed by The Hong Kong University of Science and Technology. It aims to enable more standardized and fair evaluations of jailbreaking methods by providing a dataset containing specific malicious prompts and detailed evaluation guidelines. This benchmark is split into a core set and an additional set: the core set includes 180 prompts that all victim language models will refuse to respond to, while the additional set contains 20 prompts that only a portion of language models will decline to address due to specific security policies. These prompts are designed as direct and concise text instructions rather than scenario-mixed cases to avoid confounding variables. Furthermore, detailed scoring guidelines have been formulated for each harmful prompt case, focusing on the key entities and functions required for an attacker to accomplish their malicious objectives.

提供机构：

香港科技大学

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

GuidedBench数据集的构建基于对现有 jailbreak 方法的深入分析，以及对 35 种 jailbreak 方法在六个类别中的评估。数据集包含两个部分：核心集（所有受害者 LLM 将拒绝的 180 个问题）和附加集（由于特定安全策略，只有一些 LLM 会拒绝的 20 个问题）。这些问题都是经过精心挑选的，以确保数据集的全面性和针对性。同时，对于每个有害问题案例，都制定了详细的评分指南，重点关注从攻击者角度出发，成功 jailbreak 响应必须包含的关键实体和功能。这些实体和功能是攻击者实现有害目标的重要知识。此外，指南中的每个实体或功能都有一个相应的示例字段，说明了其描述。这些指南将攻击是否成功分解为多个评分点。评估者只需要确定 jailbreak 响应是否包含这些评分点中描述的内容，从而使 jailbreak 文本的评价更加稳定和可解释。

使用方法

GuidedBench 数据集的使用方法如下：1. 下载数据集。从 GuidedBench 的主页上下载核心集和附加集的问题数据集。2. 选择受害者和评估者 LLM。根据需要选择合适的受害者和评估者 LLM。3. 使用评分系统进行评价。根据评分指南，使用评估者 LLM 对 jailbreak 响应进行评分。4. 分析评价结果。根据评价结果，分析 jailbreak 方法的有效性和安全性。

背景与挑战

背景概述

随着大型语言模型（LLM）能力的迅速提升，其潜在的风险和滥用问题引起了研究者的广泛关注。越狱攻击作为一种揭示LLM潜在风险和漏洞的关键方法，已成为研究的前沿。然而，现有的评估方法存在显著局限性，导致对LLM安全风险的评估不准确。GuidedBench数据集由香港科技大学的研究团队创建，旨在提供一个更稳健的评估框架，包含精心策划的有害问题数据集、详细的案例评估指南和评分系统。该数据集的创建填补了现有评估方法的空白，为更高级的越狱研究提供了更高的天花板，并降低了不同评估者LLM之间的分歧。

当前挑战

GuidedBench数据集面临的挑战包括：1) 现有的评估方法缺乏针对特定案例的标准，导致评估结果不一致；2) 构建过程中需要确保问题被受害者LLM拒绝，同时排除与越狱技术相关的问题；3) 现有的评估方法往往只提供问题，缺乏标准的评估指南，导致采用基于关键词的评分，容易产生误差。GuidedBench通过重建问题数据集和编写详细的评估指南，解决了这些挑战，提供了更公平和稳定的评估。

常用场景

经典使用场景

GuidedBench数据集主要被用于评估大型语言模型（LLM）的越狱方法的效能。该数据集包含了经过精心挑选的有害问题数据集、详细的逐案评估指南和配备这些指南的评分系统。通过使用GuidedBench，研究者可以更准确地评估越狱方法的有效性，并发现LLM在特定有害话题上的安全性能差异。

解决学术问题

GuidedBench数据集解决了现有基准在评估越狱方法时存在的局限性。现有基准往往依赖于通用的LLM-based或关键字匹配评分，缺乏具体案例的标准，导致评估结果不一致。GuidedBench通过引入详细的评估指南，将攻击是否成功的判断分解为多个评分点，从而提高了评估的稳定性和可解释性。此外，GuidedBench还减少了不同评估LLM之间评分的差异，提高了评估的公平性和稳定性。

实际应用

GuidedBench数据集在实际应用中可以帮助LLM开发者和研究人员更好地理解LLM的安全性能和潜在风险。通过使用GuidedBench，研究人员可以更准确地评估越狱方法的效能，并发现LLM在特定有害话题上的安全性能差异。这有助于LLM开发者改进LLM的安全机制，提高LLM的鲁棒性和安全性。

数据集最近研究