WebRSSBench

Name: WebRSSBench
Creator: 大连海事大学, 中国香港中文大学, 清华大学深圳国际研究生院, 中国人民大学, 新加坡南洋理工大学, 武汉大学, 中国
Published: 2025-09-26 10:38:14
License: 暂无描述

arXiv2025-09-26 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/annoy-worker/WebRSSBench

下载链接

链接失效反馈

官方服务：

资源简介：

WebRSSBench是一个全面性的网络理解基准，由大连海事大学等机构的研究人员创建。该数据集包含729个真实世界网站的3799个问答对，旨在评估多模态大型语言模型（MLLM）在推理、鲁棒性和安全性方面的能力。WebRSSBench引入了新的推理任务，包括位置关系推理、表单填写、提示文本预测和UI分组，这些任务对于评估MLLM在GUI代理和前端代码生成等视觉丰富应用程序中的能力至关重要。此外，WebRSSBench还提出了三种新的扰动方法来评估MLLM在面对用户界面和内容的扰动时的鲁棒性，并设计了安全性关键检测任务来评估MLLM是否能识别具有潜在安全风险的元素。该数据集的设计旨在解决现有网络相关基准的局限性，并推动网络理解和智能网络开发领域的进步。

WebRSSBench is a comprehensive web understanding benchmark created by researchers from institutions including Dalian Maritime University. This dataset includes 3,799 question-answer pairs from 729 real-world websites, aiming to evaluate the capabilities of multimodal large language models (MLLMs) in terms of reasoning, robustness and safety. WebRSSBench introduces novel reasoning tasks, including spatial relation reasoning, form filling, prompt text prediction and UI grouping, which are critical for assessing MLLMs’ performance in visually rich applications such as GUI agents and front-end code generation. Additionally, WebRSSBench proposes three new perturbation methods to evaluate MLLMs’ robustness against perturbations of user interfaces and content, and designs safety-critical detection tasks to assess whether MLLMs can identify elements with potential security risks. This dataset is designed to address the limitations of existing web-related benchmarks and advance the field of web understanding and intelligent web development.

提供机构：

大连海事大学, 中国香港中文大学, 清华大学深圳国际研究生院, 中国人民大学, 新加坡南洋理工大学, 武汉大学, 中国

创建时间：

2025-09-26

搜集汇总

数据集介绍

构建方式

WebRSSBench的构建过程立足于对真实网页数据的系统性筛选与整合，从Mind2Web、WebMMU等现有数据集中精选样本，并额外收录来自V0社区及全球热门网站的设计资源，最终形成涵盖729个网页的语料库。为确保数据质量与任务适配性，研究团队实施了多阶段质量控制机制，结合自动化脚本与人工验证，排除结构单一或缺乏交互元素的页面，同时通过坐标计算与语义标注生成3799对问答数据，为评估模型在网页理解中的推理、鲁棒性与安全性奠定坚实基础。

使用方法

使用WebRSSBench时需遵循标准化评估流程：首先通过统一提示词向模型输入原始网页截图与扰动后版本，在位置关系推理等任务中需提供局部裁剪元素与全页截图；对于鲁棒性测试，采用前后对比机制分析预测一致性，其中色彩鲁棒性依赖按钮识别召回率，文本鲁棒性通过语义嵌入相似度衡量。评估脚本自动计算各任务指标，并支持LoRA微调等改进方法的性能验证，确保结果的可复现性与跨模型可比性。

背景与挑战

背景概述

随着多模态大语言模型在网页相关应用中的广泛部署，WebRSSBench于2025年由大连海事大学、香港中文大学等机构联合推出，旨在填补现有基准在推理、鲁棒性与安全性评估上的空白。该数据集聚焦于网页理解的核心研究问题，通过整合729个真实网站与3799对问答样本，系统评估模型在空间关系推理、表单填充等八项任务中的表现，为GUI智能体与前端代码生成等应用提供了标准化测试框架，显著推动了多模态模型在复杂网页环境中的实用化进程。

当前挑战

WebRSSBench致力于解决网页理解领域三大核心挑战：其一，模型需应对多元素组合推理的复杂性，如在动态布局中准确解析界面组件的语义角色与空间关系；其二，构建过程中面临对抗性样本生成的精确控制，需通过布局重组、色彩扰动等方法模拟真实环境干扰，同时保持语义一致性；其三，安全性检测任务要求模型识别潜在风险交互元素，但现有模型对不可逆操作的敏感度仍显不足，暴露了部署可靠性的关键瓶颈。

常用场景

经典使用场景

在网页理解与多模态大语言模型评估领域，WebRSSBench作为首个系统整合推理、鲁棒性与安全性的基准，其经典应用场景聚焦于评估模型对真实网页布局的解析能力。通过位置关系推理、表单填充等任务，该数据集能够检验模型在复杂界面中对元素空间分布与语义关联的认知水平，为GUI智能体与前端代码生成系统的开发提供关键性能指标。

解决学术问题

该数据集有效解决了多模态大语言模型在网页理解中存在的三大核心学术问题：针对模型空间推理能力不足的缺陷，通过位置关系推断任务构建了结构化评估体系；针对对抗性扰动敏感度的空白，创新性地引入色彩偏移与布局重组等扰动机制；同时通过安全关键检测任务填补了现有基准对不可逆操作识别能力的评估缺失，为模型部署前的可靠性验证提供了理论支撑。

实际应用

在实际应用层面，WebRSSBench为网页自动化操作系统的开发提供了重要验证工具。其安全检测模块可应用于金融交易界面与账户管理系统的风险控制，表单填充任务能够优化智能客服的交互流程，而布局鲁棒性测试则显著提升了响应式网页设计工具的适应性。这些应用场景直接关联电子商务、在线教育等领域的数字化转型需求。

数据集最近研究