WebBench

github2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/Halluminate/WebBench

下载链接

链接失效反馈

官方服务：

资源简介：

WebBench是第一个基于真实世界动作任务的浏览器代理基准测试，包含约2.5k个基于READ和ACTION的任务，覆盖450多个真实网站，旨在推动浏览器自动化领域的创新。

WebBench is the first browser agent benchmark based on real-world action tasks. It comprises approximately 2.5k READ and ACTION-based tasks covering over 450 real-world websites, and aims to drive innovation in the field of browser automation.

创建时间：

2025-05-19

原始信息汇总

WebBench数据集概述

数据集简介

WebBench是一个针对浏览器代理的基准测试数据集，包含约2.5k个基于READ和ACTION的任务，旨在评估浏览器代理在真实网络环境中的性能。

数据集特点

真实世界复杂性：提供接近真实网络的读写和操作导向任务。
多样性覆盖：涵盖450+个真实网站，反映现代网络的真实变异性。
开源：公开发布2,454个精心策划的任务，推动浏览器自动化创新。

任务分类

类别	描述	示例	数量（占比）
READ	需要搜索和提取信息的任务	“导航到新闻部分并总结最新科学政策更新的标题和要点。”	1580 (64.4%)
CREATE	需要在网站上创建数据的任务	“登录您的账户并在‘愿望清单’部分创建一个名为‘2024夏季’的新看板。”	512 (20.9%)
UPDATE	需要在网站上更新数据的任务	“调整您的Springer账户中的期刊通知偏好。”	173 (7.1%)
DELETE	需要从网站删除数据的任务	“登录您的账户，创建一个临时测试问题，然后删除它。”	149 (6.1%)
FILE_MANIPULATION	需要从互联网下载文件的任务	“找到一个可下载的甜点食谱打印文件。”	40 (1.5%)

网站类别

涵盖452个网站，分布在17个主要类别中。
从全球流量前1000的网站中采样。
清理了重复域名、无英文翻译或受付费墙限制的网站。

相关资源

搜集汇总

数据集介绍

构建方式

在浏览器自动化研究领域，WebBench通过精心设计的构建流程确立了新的评估标准。研究团队从全球流量排名前1000的网站中筛选出452个代表性站点，经过严格的清洗流程，剔除了重复域名、非英语界面及付费墙限制的网站。采用分层抽样方法，最终构建了包含2454个任务的多样化语料库，涵盖阅读、创建、更新、删除及文件操作五大任务类型，确保任务分布符合真实网络交互场景。

特点

WebBench以其鲜明的特征在浏览器智能体评估领域独树一帜。数据集覆盖17个主要网站类别，包含64.4%的信息检索任务和36.6%的交互操作任务，精确模拟了现代网络环境的复杂性。每个任务均基于真实网站设计，特别注重动态网页元素的处理能力评估。数据集的开放共享特性为研究者提供了包含1580个阅读任务和512个创建任务在内的丰富测试场景，有效填补了现有基准测试在交互式网络任务评估方面的空白。

使用方法

该数据集为浏览器智能体研究提供了标准化评估框架。使用者可通过Hugging Face平台获取完整数据集，按照任务类别划分进行模块化测试。评估时应重点关注智能体在跨网站任务中的泛化能力，特别是对动态元素的操作准确性。技术报告详细说明了任务完成度的评判标准，建议研究者参照原始论文中的评估协议，对比智能体在不同交互层级任务中的表现差异，从而全面衡量自动化解决方案的实用性能。

背景与挑战

背景概述

WebBench数据集由Halluminate团队于2024年推出，旨在解决浏览器智能体在真实网络环境中性能评估的标准化问题。作为首个专注于动作导向型任务的基准测试平台，该数据集覆盖450余个真实网站，精心设计了2,454项涵盖信息检索、数据操作等五大类任务。其创新性体现在突破了传统基准测试局限于静态模拟或只读任务的桎梏，通过模拟动态网络环境的复杂性，为自动化浏览器代理的研究提供了更接近实际应用场景的评估框架。该数据集的发布显著推动了人机交互、网络自动化等领域的算法研发，被广泛应用于智能体行为建模、网络任务自动化等前沿研究方向。

当前挑战

WebBench面临的领域挑战主要来自真实网络环境的极端复杂性：动态页面结构导致元素定位困难，多模态交互需求要求智能体同时处理文本、图像及表单操作，而网站反爬机制则对自动化行为检测提出更高要求。在构建过程中，研究团队需应对三大技术难题：真实网站样本的多样性选择需平衡流量排名与功能覆盖，任务设计既要保持人类操作逻辑又需适配机器可执行性，而动作序列的标注体系必须精确到DOM元素层级的操作语义。这些挑战使得该数据集成为检验浏览器智能体鲁棒性与泛化能力的试金石。

常用场景

经典使用场景

在浏览器自动化研究领域，WebBench数据集以其覆盖450多个真实网站的多样化任务而著称，成为评估浏览器代理性能的黄金标准。研究者通过该数据集能够模拟用户在真实网络环境中的行为，从简单的信息读取到复杂的数据操作，全面测试代理的适应性和执行能力。

衍生相关工作

基于WebBench的丰富任务库，学术界已衍生出多项突破性研究，包括基于强化学习的浏览器导航算法、多模态网页理解模型等。这些工作不仅扩展了数据集的应用维度，更为构建下一代智能网络代理奠定了理论基础和技术储备。

数据集最近研究