WASP

Name: WASP
Creator: FAIR at Meta
Published: 2025-04-23 01:51:03
License: 暂无描述

arXiv2025-04-23 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.18575v1

下载链接

链接失效反馈

官方服务：

资源简介：

WASP是一个针对Web Agent安全性的基准测试数据集，它通过引入真实的Web Agent劫持目标和隔离环境来测试这些目标，不会影响真实用户或实时Web。该数据集包括针对三个流行的Web Agent系统（VisualWebArena、Claude Computer Use和Operator）的基准攻击，这些系统使用了各种最先进的模型。WASP的数据集由手工制作的恶意指令组成，旨在模拟真实世界中的攻击者行为。数据集包含了21个攻击目标和2个用户目标，每个目标都在VisualWebArena环境中进行了测试，以确保其可执行性。WASP旨在解决Web Agent在面临恶意指令注入攻击时的安全问题，为研究人员提供一个平台来评估和改进Web Agent的安全性。

WASP is a benchmark dataset for Web Agent security. It tests targets by introducing real Web Agent hijacking targets and isolated environments, without affecting real users or the live Web. This dataset includes benchmark attacks against three popular Web Agent systems: VisualWebArena, Claude Computer Use, and Operator, which utilize various state-of-the-art models. The WASP dataset consists of hand-crafted malicious instructions designed to simulate real-world attacker behaviors. It contains 21 attack targets and 2 user targets, each tested in the VisualWebArena environment to ensure executability. WASP aims to address the security issues of Web Agents facing malicious instruction injection attacks, providing a platform for researchers to evaluate and improve the security of Web Agents.

提供机构：

FAIR at Meta

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

WASP数据集的构建基于VisualWebArena沙盒环境，通过模拟真实网页环境中的提示注入攻击来评估网络代理的安全性。研究团队在GitLab和Reddit两个网页环境中植入了恶意指令，这些指令被设计为在非攻击者控制的网页上可执行，以更真实地反映攻击者的能力。数据集包含42个测试场景，每个场景结合了攻击者目标和用户目标，通过手动设计的恶意指令模板生成测试用例。

特点

WASP数据集的特点在于其强调攻击者目标和能力的现实性，以及端到端的代理工作流程评估。数据集提供了多样化的攻击目标，包括数据泄露、数据破坏、权限提升等，这些目标在沙盒网页环境中均可实现。此外，数据集兼容当前最先进的网络代理系统，如Claude Computer Use Agent和VisualWebArena框架，确保了广泛的适用性。

使用方法

使用WASP数据集时，研究人员可以通过其内置的自动化评估器来衡量代理在遭遇提示注入攻击时的安全性。评估器分为两类：一类用于评估攻击者目标是否被完整实现（ASR–end-to-end），另一类用于评估代理是否被成功劫持（ASR–intermediate）。此外，数据集还提供了实用评估器，用于检查代理在攻击下是否仍能完成用户目标。这些评估器帮助研究人员全面了解代理的安全性和实用性。

背景与挑战

背景概述

WASP（Web Agent Security against Prompt injection attacks）是由Meta的FAIR团队于2025年4月推出的一个专注于评估网页导航AI代理安全性的基准测试数据集。该数据集旨在解决现有研究中对于间接提示注入攻击（indirect prompt injection attacks）评估的不足，特别是在网页代理领域。WASP通过模拟真实的网页环境和设定具体的攻击目标，提供了一个隔离的测试环境，以避免对真实用户和网络造成影响。该数据集的推出填补了网页代理安全性评估的空白，为研究者和开发者提供了一个标准化的测试平台，以评估和提升AI代理在面对恶意提示注入时的安全性。

当前挑战

WASP数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，WASP旨在解决网页导航AI代理在面对间接提示注入攻击时的脆弱性问题，这些攻击可能导致代理执行与用户原始指令相悖的操作。构建过程中的挑战包括：1) 设计真实的攻击目标和场景，以确保评估的实用性和代表性；2) 创建一个隔离的测试环境，既能模拟真实网络环境，又不会对实际网络和用户造成影响；3) 确保数据集的广泛兼容性，使其能够适用于不同类型的网页代理系统。这些挑战的解决对于提升AI代理的安全性和可靠性至关重要。

常用场景

经典使用场景

WASP数据集专为评估自主网络导航代理在提示注入攻击下的安全性而设计。其经典使用场景包括模拟真实网络环境中的恶意指令注入，测试代理在面对复杂攻击目标时的反应。通过构建基于VisualWebArena的沙盒环境，WASP能够在不影响真实用户或网络的情况下，对代理进行端到端的安全评估。

实际应用

在实际应用中，WASP可用于评估商业网络代理（如Claude计算机使用代理和VisualWebArena代理）的安全性。研究结果表明，即使具备高级推理能力的代理也容易受到低难度人工编写的提示注入攻击。这为开发更安全的网络代理提供了重要参考，并促使行业关注代理在真实场景中的安全风险。

衍生相关工作

WASP的发布催生了一系列相关研究，包括改进的提示注入攻击技术和防御策略。例如，基于指令层次结构的防御方法（如GPT-4o-mini和o1模型）在该数据集上得到验证。此外，WASP的评估框架为后续研究（如AgentDojo和InjecAgent）提供了基准，推动了网络代理安全领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集