WAInjectBench

github2025-09-24 更新2025-10-05 收录

下载链接：

https://github.com/Norrrrrrr-lyn/WAInjectBench

下载链接

链接失效反馈

官方服务：

资源简介：

WAInjectBench是一个用于网络代理提示注入检测的综合基准数据集，涵盖6种攻击类型，包含文本和图像两种模态。数据集结构包括文本数据（良性4个类别，恶意8种攻击类型，存储为JSONL文件）和图像数据（良性2个类别，恶意7种攻击类型，存储在子文件夹中）

WAInjectBench is a comprehensive benchmark dataset for web proxy prompt injection detection, covering 6 types of attacks and encompassing two modalities: text and image. The dataset structure consists of text data and image data: the text data includes 4 benign categories and 8 malicious attack types, stored in JSONL files; the image data includes 2 benign categories and 7 malicious attack types, stored in subfolders.

创建时间：

2025-09-23

原始信息汇总

WAInjectBench 数据集概述

数据集简介

WAInjectBench 是一个针对网络代理中提示注入检测的综合基准测试，涵盖6种攻击类型，跨越文本和图像两种模态。

数据集结构

数据目录：data/
- 文本数据：text/
  - 良性样本：benign/ - 4个类别，存储为JSONL文件
  - 恶意样本：malicious/ - 8种攻击类型，存储为JSONL文件
- 图像数据：image/
  - 良性样本：benign/ - 2个类别，存储在子文件夹中
  - 恶意样本：malicious/ - 7种攻击类型，存储在子文件夹中

评估功能

文本检测

支持检测器：["kad", "promptarmor", "embedding-t", "promptguard", "datasentinel", "ensemble"]

图像检测

支持检测器：["gpt-4o-prompt", "llava-1.5-7b-prompt", "jailguard", "embedding-i", "llava-1.5-7b-ft", "ensemble"]

训练功能

文本嵌入分类器训练
图像嵌入分类器训练
LLaVA-1.5-7B微调训练

数据格式

文本数据JSONL格式：{"text": "example", "label": 1}（1表示恶意，0表示良性）
图像数据JSONL格式：{"path": "path/to/image.png", "label": 1}（1表示恶意，0表示良性）

搜集汇总

数据集介绍

构建方式

在网络安全领域，WAInjectBench数据集通过系统化方法构建，覆盖文本与图像两种模态的恶意攻击场景。文本数据以JSONL格式组织，包含良性类别与八种攻击类型；图像数据则按文件夹分类存储，涵盖七种恶意攻击模式。这种多模态结构设计确保了数据集的全面性与代表性，为后续检测模型训练提供了坚实基础。

特点

该数据集的核心特点在于其多维度的攻击覆盖能力，囊括六类典型攻击手法，并创新性地融合文本与图像双模态威胁样本。通过精心设计的恶意与良性数据平衡策略，既保留了真实网络环境中的攻击复杂性，又为模型泛化性能评估提供了标准化基准。其模块化存储结构进一步支持灵活的数据调用与扩展。

使用方法

针对该数据集的应用，研究者可通过标准化评估流程开展检测实验。文本检测模块支持六种预置检测器，需配置相应API密钥或本地模型路径；图像检测则集成五种先进视觉语言模型，包括微调版本的LLaVA架构。训练阶段提供嵌入分类器与端到端微调方案，用户只需按指定JSONL格式准备数据即可启动模型优化流程。

背景与挑战

背景概述

随着人工智能技术在Web代理领域的深入应用，提示注入攻击逐渐成为威胁系统安全的关键因素。WAInjectBench由研究团队于2024年创建，专注于构建多模态提示注入检测基准，涵盖文本与图像两种模态下的六类攻击模式。该数据集通过系统化分类恶意与良性样本，为Web代理安全领域提供了标准化评估框架，显著推动了人机交互安全机制的研究进程。

当前挑战

在提示注入检测领域，攻击手段的多样性和隐蔽性构成了核心挑战，包括对抗性文本构造与视觉混淆技术的演进。数据集构建过程中面临多模态数据对齐的复杂性，需确保文本指令与图像内容在语义层面的统一标注。同时，跨模态攻击样本的收集需克服真实场景数据稀缺性，以及恶意内容人工标注过程中主观判断带来的一致性难题。

常用场景

经典使用场景

在网络安全与人工智能交叉领域，WAInjectBench作为首个专注于网页代理场景的提示注入检测基准，其经典应用体现在系统评估多模态防御模型的鲁棒性。该数据集通过构建文本与图像双模态的良性交互与恶意攻击样本，为研究者提供了标准化测试平台，用于验证检测算法在真实网络环境中的泛化能力与对抗性表现。

解决学术问题

该数据集有效解决了提示注入攻击检测领域缺乏统一评估标准的学术困境。通过涵盖6类文本攻击与7类图像攻击的完整分类体系，它使研究者能够量化分析不同防御策略的效能边界，特别是针对跨模态联合攻击的检测盲点，为构建可信赖的网页代理系统提供了关键理论支撑与实践范式。

衍生相关工作

基于该数据集衍生的经典研究包括KAD检测器的自适应优化框架、PromptArmor的语义特征提取方法，以及Ensemble模型的动态权重分配策略。这些工作通过创新性地融合文本嵌入分析与视觉语义理解，推动了《ACM CCS》和《IEEE S&P》等顶级会议上多篇突破性论文的诞生，形成了提示注入防御的技术谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集