WARD-Base

Name: WARD-Base
Creator: 新加坡国立大学; 科技大学; 越南国立大学·胡志明市
Published: 2026-05-15 00:26:27
License: 暂无描述

arXiv2026-05-15 更新2026-05-16 收录

下载链接：

https://github.com/caothientri2001vn/WARD-WebAgent

下载链接

链接失效反馈

官方服务：

资源简介：

WARD-Base是由新加坡国立大学等机构构建的大规模网页代理安全防御数据集，旨在提升对提示注入攻击的检测能力。该数据集包含约17.7万条样本，覆盖719个高流量网站和10个模拟高风险平台，数据来源于真实网页探索和模拟用户生成内容，通过双分支管道构建恶意与良性样本。数据集构建过程采用两阶段方法：首先收集网页HTML与截图作为基础数据，随后通过视觉语言模型生成符合上下文的提示注入内容。该数据集主要应用于网页代理安全领域，用于训练和评估防御模型，以解决开放网络环境中提示注入攻击导致的代理决策操纵和安全漏洞问题。

WARD-Base is a large-scale web proxy security defense dataset developed by institutions including the National University of Singapore, aiming to enhance the detection capability against prompt injection attacks. This dataset contains approximately 177,000 samples, covering 719 high-traffic websites and 10 simulated high-risk platforms. The data is sourced from real web crawls and simulated user-generated content, with malicious and benign samples constructed via a two-branch pipeline. The dataset construction adopts a two-stage approach: first, web HTML and screenshots are collected as basic data, followed by the generation of context-aware prompt injection content via vision-language models. This dataset is primarily applied in the field of web proxy security, used for training and evaluating defense models to address proxy decision manipulation and security vulnerabilities caused by prompt injection attacks in open network environments.

提供机构：

新加坡国立大学; 科技大学; 越南国立大学·胡志明市

创建时间：

2026-05-15

原始信息汇总

数据集概述：WARD (WebAgent Adversarial Robust Defense)

数据集名称：WARD (Adversarially Robust Defense of Web Agents Against Prompt Injections)
项目主页：https://caothientri2001vn.github.io/WARD-WebAgent/
论文地址：https://arxiv.org/abs/2605.15030
模型仓库（Hugging Face）：
- tricao1105/WARD-0.8b
- tricao1105/WARD-2b
数据发布状态：评估和训练数据即将发布。

数据集核心任务

领域：Web Agent安全防御
任务类型：多模态提示注入检测（Prompt Injection Detection）
输入：用户意图任务 + 网页预处理HTML文本 + 网页截图
输出：一个结构化的JSON，包含：
- reasoning：基于证据的推理分析
- attack_goal：攻击目标描述（若无攻击则为"none"）
- injection_location：注入位置（"html"、"screenshot"、"both"或"none"）
- label：样本标签（"malicious"或"benign"）

模型与使用

模型类型：多模态守卫检查点（Multimodal Guard Checkpoints）
可用模型：WARD-0.8b 和 WARD-2b
运行环境：依赖 torch、pillow、transformers
推理示例：提供了完整的 transformers 代码示例，包括加载模型、处理器、构造对话模板、生成推理结果。

搜集汇总

数据集介绍

构建方式

WARD-Base数据集由新加坡国立大学研究团队构建，旨在为网络代理抵御提示注入攻击提供大规模训练基础。该数据集采用双分支流水线采集数据：覆盖分支中，网络代理探索真实网页并收集配对的HTML内容与截图，随后通过HTML修改或截图覆盖注入攻击；原生分支则构建高风险平台（如社交媒体、消息服务），将攻击嵌入用户生成内容。最终从719个高流量URL和平台收集约177K样本，涵盖13种注入通道、6种攻击目标类型，并保持接近平衡的良性/恶意标注分布。

特点

WARD-Base具有显著的多样性与结构化特征。数据集覆盖709个真实URL和10个复制平台，支持HTML、截图及双模态三种注入位置，并明确区分6类攻击目标与13种注入通道。其创新之处在于同时包含覆盖分支（模拟外部注入）和原生分支（模拟自然嵌入攻击），使模型能泛化至未见过的域和攻击模式。此外，数据集通过生成器-评估器循环为每个样本添加推理字段，支持监督微调中的多任务学习。

使用方法

WARD-Base主要用于训练提示注入检测模型。研究者可将样本格式化为指令跟随示例，输入为（HTML、截图、用户任务）三元组，目标输出包含标签、注入位置、攻击目标和推理文本。模型需学习判断观察是否含恶意内容、定位注入位置并推断攻击意图。数据集支持额外训练阶段：在WARD-Base上微调后，可继续在WARD-PIG（含针对守卫模型的攻击样本）上训练提升鲁棒性，并通过A3T自适应对抗训练框架迭代增强防御能力。

背景与挑战

背景概述

WARD-Base数据集由新加坡国立大学的研究团队于2026年创建，旨在应对Web智能体在开放网络环境中面临的提示注入攻击威胁。随着大语言模型驱动的自主Web智能体日益普及，恶意攻击者可通过在HTML内容或视觉界面中嵌入欺骗性指令，诱导智能体执行数据泄露、未授权操作等危险行为。现有防护模型在跨领域泛化性、误报率控制及对抗鲁棒性等方面存在显著局限。WARD-Base作为WARD防御框架的核心训练数据，包含约17.7万样本，覆盖719个高流量网页及模拟高风险平台，系统性地构建了覆盖多种注入位置、攻击目标与注入通道的多样化数据集，为训练具备强泛化能力的提示注入检测模型奠定了坚实基础。

当前挑战

WARD-Base所应对的领域挑战主要包括：第一，现有检测模型难以泛化至训练中未见的攻击模式与领域，在邮件、社交等高危平台表现脆弱，且难以同时处理文本与视觉单模态及跨模态注入。第二，许多防护系统将包含类似指令的良性网页误判为恶意，显著降低智能体实用效能。在数据集构建层面，核心挑战在于如何真实模拟攻击场景：需同时构建覆盖真实网页界面的覆盖分支与模拟高风险平台的原生分支，并保证注入内容在视觉与语义上自然嵌入上下文，避免简单模板化。此外，需对攻击目标、注入位置与通道进行系统化分类与细粒度标注，确保数据集兼具规模、多样性与真实性，以支撑模型学习从具体观测中推断攻击意图的推理能力。

常用场景

经典使用场景

在网页代理安全防护领域，WARD-Base数据集最经典的使用场景是作为训练和评估提示注入检测模型的大规模基准资源。该数据集源自719个高流量网址与平台的约17.7万个多模态样本，覆盖HTML文本与网页截图两种观测模态，并系统性地定义了六类攻击目标、四种注入位置及十三种注入渠道。研究者可基于该数据集对安全防护模型进行监督微调，使其具备跨领域、跨模态的泛化检测能力，从而在开放网页环境中精准识别并定位那些试图操纵代理行为的恶意指令。

解决学术问题

WARD-Base数据集的提出有效解决了现有防护模型在泛化能力、误报率与对抗鲁棒性方面的核心学术瓶颈。此前训练数据集仅覆盖有限的通用网站类型，导致模型在面对邮件、社交平台等高危环境时性能急剧下降，且单模态检测器难以应对跨界面形式的混合攻击。WARD-Base通过结合真实网页探索与高仿真平台构建的双支数据管道，提供了结构化的注入通道与攻击目标标注，使模型能从接口层语义而非表面文本模式中学习攻击特征，显著提升了在未见领域上的检测召回率并维持极低的假阳性率。

衍生相关工作

基于WARD-Base数据集，研究者进一步衍生出WARD-PIG与A3T两项代表性工作。WARD-PIG专门针对防护模型自身面对的提示注入攻击，通过构造10,500个同时攻击代理与防护模型的难例样本，强制模型学会将针对守卫的操控指令识别为对抗信号而非可执行内容。A3T则提出了一种自适应对抗攻击训练框架，在该框架内攻击者与防护模型通过记忆驱动的迭代共演化过程持续博弈，使模型在面对逐轮进化的越狱攻击时能够动态提升决策边界。这些衍生工作共同构筑了从静态检测到动态对抗的完整防御链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集