WebGuard Dataset

github2025-07-29 更新2025-07-30 收录

下载链接：

https://github.com/OSU-NLP-Group/WebGuard

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含浏览器交互的网页安全注释。每个条目代表网站上带有风险级别的注释操作。

The dataset contains web page security annotations related to browser interactions. Each entry represents an annotation operation on a website with a risk level.

创建时间：

2025-07-17

原始信息汇总

WebGuard数据集概述

数据集基本信息

名称: WebGuard
用途: 用于训练和评估网页安全监控系统，检测网页代理可能执行的有害操作
许可证: CC BY-NC 4.0（仅限非商业用途）
相关论文: WebGuard: Building a Generalizable Guardrail for Web Agents

数据集内容

数据类型: 网页交互安全标注数据
数据字段:
- url: 执行操作的网页URL
- description: 操作描述（可能为空）
- tagHead: 目标元素的HTML标签类型
- Screenshot: 截图视图的Google Drive链接
- Annotation: 安全分类（SAFE/UNSAFE/LOW/HIGH）
- website: 网站名称/类别

模型训练支持

数据预处理: 提供将原始数据转换为LLaMA-Factory格式的脚本
训练配置:
- 文本模型: 3B/7B Qwen2.5模型
- 多模态模型: 3B/7B视觉语言模型

使用限制

仅限研究用途
禁止任何潜在有害使用

搜集汇总

数据集介绍

构建方式

在网络安全领域日益重要的背景下，WebGuard数据集通过系统化采集和标注网页交互行为构建而成。研究团队基于WebOlympus平台开发了专用标注工具，对浏览器操作进行多维度安全评估，包括URL、操作描述、HTML元素类型等多字段结构化记录。数据集构建过程采用分层抽样策略覆盖不同类别网站，并由专业团队根据严格的安全标准进行双盲标注，最终形成包含安全/不安全/低风险/高风险四级分类的大规模语料库。

特点

该数据集的核心价值在于其多维度的网页安全特征表征能力。每个数据条目不仅包含基础URL和操作描述，还创新性地整合了目标元素的HTML标签类型和对应页面截图，为多模态分析提供可能。特别值得注意的是，数据集采用四层级安全标注体系，能够精确区分不同危险程度的网络行为，且覆盖电商、社交、金融等多样化网站场景，为模型泛化性能的提升奠定基础。

使用方法

使用该数据集时需通过LLaMA-Factory框架进行格式转换，支持文本单模态和视觉-语言多模态两种训练模式。研究人员可根据需求选择3B或7B参数的Qwen2.5系列模型架构，通过配置文件灵活调整训练参数。数据集特别适用于构建网页代理安全防护系统，输入序列包含网页元素特征和操作上下文，输出层通过softmax函数预测四分类安全概率。预处理阶段建议对截图数据进行卷积特征提取，与文本特征进行跨模态融合。

背景与挑战

背景概述

WebGuard数据集由俄勒冈州立大学自然语言处理小组（OSU-NLP-Group）于2025年发布，旨在为网络智能体构建通用化的安全护栏系统。随着网络智能体执行复杂任务能力的提升，其潜在的安全风险日益凸显，该数据集通过大规模标注的浏览器交互记录，为预防性安全监测提供了关键研究基础。核心研究问题聚焦于如何在动态网络环境中实时识别并阻断有害行为，相关成果已发表于计算机语言学顶级会议EMNLP及预印本平台arXiv，对提升网络自动化系统的安全性具有重要推动作用。

当前挑战

该数据集需解决网络智能体行为安全评估中的两大核心挑战：其一，动态网页结构的异质性导致传统规则方法难以泛化，需建立兼顾HTML标签与视觉信息的跨网站风险识别模型；其二，标注过程中面临网络行为危害性判定的主观性，需通过多维度标签体系（SAFE/UNSAFE/LOW/HIGH）和专业化标注工具来保证数据一致性。数据构建阶段还需克服网页状态瞬时性带来的标注难题，开发了基于WebOlympus扩展的实时截图存档技术以确保数据可追溯性。

常用场景

经典使用场景

在智能代理技术快速发展的背景下，WebGuard数据集为研究人员提供了评估和提升网络代理安全性的关键工具。该数据集通过标注网页交互行为的安全等级，成为训练风险检测模型的黄金标准，广泛应用于自动化浏览、智能表单填写等场景中潜在危险行为的识别与拦截。其多模态特性结合文本描述与屏幕截图，为复杂环境下的安全决策提供了立体化分析依据。

实际应用

在电子商务平台自动化测试中，基于WebGuard训练的监控系统可提前识别优惠券滥用等欺诈行为；政务网站智能助手借助该数据集的标注规则，能够规避敏感信息误提交风险。金融领域将其集成至自动化交易系统，有效防止误操作导致的资金损失。教育机构则利用其构建安全浏览教学工具，培养学生数字安全意识。

衍生相关工作

该数据集催生了WebOlympus开源平台的发展，支持实时网页代理的安全监控。基于其构建的Qwen2.5系列模型在ACL等顶会发表多篇论文，衍生出网页无障碍访问增强系统、跨平台风险传播分析工具等创新成果。MIT等机构进一步扩展其应用至元宇宙安全领域，形成Web3.0环境下的新型防护框架研究体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集