WAInjectBench

Name: WAInjectBench
Creator: 杜克大学
Published: 2025-10-02 02:34:06
License: 暂无描述

arXiv2025-10-02 更新2025-11-20 收录

下载链接：

https://github.com/Norrrrrrr-lyn/WAInjectBench

下载链接

链接失效反馈

官方服务：

资源简介：

WAInjectBench是一个用于评估针对网络代理的提示注入攻击检测方法的综合基准数据集。该数据集包含来自不同攻击生成的恶意文本片段、来自四个类别的良性文本片段、由攻击产生的恶意图像以及来自两个类别的良性图像。数据集涵盖了文本和图像两种模态，为评估和防御提示注入攻击提供了基础。

WAInjectBench is a comprehensive benchmark dataset designed for evaluating detection methods of prompt injection attacks targeting web proxies. This dataset encompasses malicious text fragments generated by diverse attacks, benign text fragments from four distinct categories, malicious images produced by such attacks, as well as benign images belonging to two categories. Covering both text and image modalities, the dataset provides a fundamental basis for the evaluation and defense against prompt injection attacks.

提供机构：

杜克大学

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

WAInjectBench数据集的构建采用多模态融合策略，涵盖文本与图像两大模态的恶意与良性样本。文本数据源自六类主流提示注入攻击（如VWA-Adv、EIA等）生成的恶意指令片段，同时从公开平台（如Reddit、GitLab）及标准化数据集（如Spam Email Dataset）收集对应类别的良性文本。图像数据包含攻击生成的扰动图像与网页截图，以及从Visual Web Arena等环境采集的原始图像。所有样本均通过人工标注验证其语义一致性与攻击特征，确保数据分布的多样性与现实代表性。

特点

该数据集具备多维度特性：其文本部分涵盖用户评论、图像描述、邮件消息及网页界面文本四类场景，共包含991个恶意片段与2,707个良性片段，并标注显性指令存在性以支持细粒度分析；图像部分包含2,022个恶意样本与948个良性样本，覆盖嵌入式图像与网页截图两类载体。数据集深度融合威胁建模思想，通过攻击者能力、背景知识等维度对样本分类，为检测模型提供跨攻击泛化性与对抗鲁棒性评估基础。

使用方法

WAInjectBench支持双模态检测方法的系统性评估。研究者可分别调用文本检测器（如基于提示工程、嵌入分类或微调的方法）与图像检测器（如多模态提示、特征提取或微调模型），在统一指标（TPR/FPR）下量化其性能。数据集支持跨攻击泛化测试，允许通过调整训练集攻击类型验证模型迁移能力。此外，其模块化结构便于扩展新攻击样本，并可通过集成策略融合多检测器结果以提升覆盖范围。

背景与挑战

背景概述

WAInjectBench数据集由杜克大学研究团队于2024年推出，旨在系统评估网络智能体面临的提示注入攻击检测方法。该数据集聚焦于网络智能体在自主执行网页任务时面临的安全威胁，通过构建包含恶意与良性样本的多模态数据，填补了该领域缺乏标准化评估基准的空白。其创新性在于首次对六类主流提示注入攻击进行细粒度分类，并整合文本与图像双模态检测框架，为提升网络智能体的安全性和可靠性提供了重要研究基础。

当前挑战

该数据集需应对两大核心挑战：在领域问题层面，网络智能体易受隐蔽性提示注入攻击的影响，例如缺乏显式指令的文本扰动或视觉不可见的图像干扰，导致现有检测方法准确率显著下降；在构建过程中，需平衡多源数据采集的复杂性，包括从真实网络环境中提取异构文本片段与图像样本，并确保恶意样本与良性样本的类别对齐，同时克服跨攻击类型数据分布差异对检测模型泛化能力造成的限制。

常用场景

经典使用场景

在Web智能体安全研究领域，WAInjectBench作为首个针对提示注入攻击检测的基准数据集，其经典应用场景聚焦于评估多模态检测方法的鲁棒性。该数据集通过整合六类典型攻击样本与四类良性文本数据，为研究者提供了系统验证文本与图像双模态检测器性能的标准化平台，尤其在模拟真实网页环境中智能体遭遇的恶意指令注入场景时展现出独特价值。

衍生相关工作

该数据集已衍生出多个具有影响力的研究方向：在攻击方层面催生了基于对抗训练的增强型攻击方法WebInject，在防御方层面推动了游戏理论优化检测框架DataSentinel的发展。同时其构建的多模态评估范式被后续研究扩展至视觉-语言预训练模型安全评估领域，为构建端到端的Web智能体防护体系提供了理论基础。

数据集最近研究