Gandalf

Name: Gandalf
Creator: Lakera
Published: 2025-01-14 16:30:49
License: 暂无描述

arXiv2025-01-14 更新2025-01-16 收录

下载链接：

https://huggingface.co/datasets/Lakera/gandalf-rct

下载链接

链接失效反馈

官方服务：

资源简介：

Gandalf数据集由Lakera公司创建，旨在为大语言模型（LLM）的安全防御提供多样化的自适应攻击数据。该数据集包含27.9万条提示攻击数据，通过众包红队平台Gandalf生成，涵盖了多种攻击类型，如越狱攻击、系统提示泄露和间接注入攻击等。数据集的创建过程通过游戏化的方式激励用户生成真实且多样化的攻击数据，并自动标记攻击的成功与否。该数据集的应用领域主要集中在LLM的安全防御研究，旨在帮助开发者设计既能有效防御攻击又不影响用户体验的防御策略。

The Gandalf dataset was developed by Lakera Inc. to provide diverse adaptive attack data for the security defense of Large Language Models (LLMs). This dataset contains 279,000 prompt attack samples, generated through the Gandalf crowdsourced red team platform, covering various attack types including jailbreak attacks, system prompt leakage, indirect prompt injection attacks, and more. The dataset was constructed via a gamified mechanism to incentivize users to produce authentic and diverse attack data, with automatic labeling of whether an attack was successful. Its primary application lies in LLM security defense research, aiming to help developers design defense strategies that can effectively defend against attacks while preserving user experience.

提供机构：

Lakera

创建时间：

2025-01-14

搜集汇总

数据集介绍

构建方式

Gandalf数据集是通过一个众包、游戏化的红队平台构建的，旨在生成真实且自适应的攻击数据集。该平台通过将提示攻击转化为公开可访问的互动游戏，激励玩家构建创造性的攻击，并通过密码提取的成功与否自动标记攻击的有效性。数据集包含279,000个提示攻击，并辅以良性用户数据，用于分析安全性与实用性之间的相互作用。

使用方法

Gandalf数据集可用于评估大语言模型（LLM）应用的安全性，特别是针对提示攻击的防御机制。研究者可以通过该数据集分析不同防御策略的有效性，并优化安全性与实用性之间的权衡。数据集还可用于训练和测试输入/输出分类器、内部防御和提示修改防御等防御机制。此外，数据集的自适应攻击特性使其成为评估动态防御策略的理想选择。

背景与挑战

背景概述

Gandalf数据集由Lakera团队于2023年创建，旨在解决大语言模型（LLM）应用中的提示攻击问题。该数据集通过众包和游戏化的红队平台生成，收集了279,000条提示攻击数据，并辅以良性用户数据，揭示了安全性与实用性之间的复杂关系。Gandalf的创建标志着LLM安全评估从静态模型向动态模型的转变，强调了攻击的适应性和防御的实用性。该数据集的核心研究问题是如何在动态环境中评估和优化LLM应用的安全性，同时最小化对合法用户的影响。Gandalf的发布为LLM安全领域提供了重要的数据支持，推动了自适应防御策略的研究。

当前挑战

Gandalf数据集面临的挑战主要包括两个方面：首先，提示攻击的多样性和适应性使得防御机制难以全面覆盖所有攻击类型，尤其是在攻击者能够通过多步交互优化攻击策略的情况下。其次，构建过程中遇到的挑战包括如何在不影响合法用户体验的前提下，设计有效的防御机制。现有的防御方法往往会在阻止恶意请求的同时，误伤合法用户请求，导致实用性下降。此外，数据集的高质量和多样性要求也增加了数据收集和标注的难度，尤其是在众包环境下确保攻击数据的真实性和多样性。这些挑战凸显了在LLM应用中平衡安全性与实用性的复杂性。

常用场景

经典使用场景

Gandalf数据集主要用于评估大型语言模型（LLM）在面对动态对抗行为时的防御能力。通过众包和游戏化的红队平台，Gandalf生成了大量真实的、自适应的攻击数据，帮助研究人员分析LLM应用中的安全性与实用性之间的权衡。该数据集广泛应用于LLM防御策略的研究，特别是在对抗提示攻击（prompt attacks）的场景中。

解决学术问题

Gandalf数据集解决了LLM应用中常见的对抗性提示攻击问题。通过引入动态安全效用威胁模型（D-SEC），该数据集能够模拟多步交互中的攻击与防御行为，并量化安全性与实用性之间的权衡。这一模型帮助研究人员设计出既能有效防御攻击，又不会过度限制合法用户使用的防御策略。此外，Gandalf数据集还揭示了现有评估方法的不足，特别是静态评估无法捕捉到的自适应攻击行为。

实际应用

Gandalf数据集的实际应用场景主要集中在LLM应用的安全性评估与防御策略优化上。例如，企业可以使用该数据集来测试其LLM驱动的客服系统在面对恶意提示攻击时的表现，并优化其防御机制。此外，Gandalf还可以用于开发自适应防御系统，这些系统能够根据攻击者的行为动态调整防御策略，从而在保证安全性的同时，最大限度地减少对用户体验的影响。

数据集最近研究