WebArena Verified dataset

github2025-12-06 更新2025-12-07 收录

下载链接：

https://github.com/ServiceNow/webarena-verified

下载链接

链接失效反馈

官方服务：

资源简介：

WebArena-Verified是WebArena基准测试的验证版本。它分发了一个经过整理的、版本控制的网络任务数据集，以及用于评估代理响应和捕获的网络跟踪的确定性评估器。该项目旨在为网络代理的可重复基准测试提供支持，并提供了用于单任务调试和批量评估的工具。

WebArena-Verified is the verified version of the WebArena benchmark. It distributes a curated, version-controlled web task dataset, along with a deterministic evaluator for assessing agent responses and captured web traces. This project aims to support reproducible benchmarking of web agents, and provides tools for single-task debugging and batch evaluation.

创建时间：

2025-12-03

原始信息汇总

WebArena-Verified 数据集概述

数据集基本信息

数据集名称：WebArena-Verified
发布机构：ServiceNow
性质：WebArena基准测试的已验证版本
核心内容：分发经过策划、版本控制的网络任务数据集，以及基于智能体响应和捕获的网络轨迹进行操作的确定性评估器。

数据集特点与亮点

完全审计的基准测试：每个任务、参考答案和评估器都经过人工审查和修正。
离线评估：无需实时网络环境，可通过网络轨迹回放来评估智能体运行。
确定性评分：移除了基于LLM的评判和子字符串匹配，采用类型感知归一化和结构化比较。
WebArena-Verified Hard子集：一个包含258个任务的、按难度优先排序的子集，用于经济高效的评估。

数据集文件与结构

已验证数据集主文件：assets/dataset/webarena-verified.json
原始WebArena数据集（供参考）：assets/dataset/test.raw.json
Hard子集任务ID列表：assets/dataset/subsets/webarena-verified-hard.json
Hard子集数据导出命令：webarena-verified subset-export --name webarena-verified-hard --output webarena-verified-hard.json

用途与功能

用于网络智能体的可复现基准测试。
提供用于单任务调试和批量评估的工具。
支持通过CLI或编程方式（Python库）进行任务获取与评估。

获取与使用

代码仓库地址：https://github.com/ServiceNow/webarena-verified
文档地址：https://servicenow.github.io/webarena-verified/
快速开始：包含环境设置、依赖安装、CLI验证及任务评估的完整流程示例。

引用信息

论文标题：WebArena Verified: Reliable Evaluation for Web Agents
作者：Amine El hattami, Megh Thakkar, Nicolas Chapados, Christopher Pal
会议：Workshop on Scaling Environments for Agents (NeurIPS 2025)
论文链接：https://openreview.net/forum?id=94tlGxmqkN
BibTeX引用格式：已提供于README文件中。

搜集汇总

数据集介绍

构建方式

在构建WebArena Verified数据集时，研究团队对原始WebArena基准进行了全面审计与验证。每个任务、参考答案及评估器均经过人工审查与修正，确保数据的准确性与可靠性。数据集采用版本控制机制进行管理，并整合了网络轨迹捕获技术，支持离线环境下的确定性评估。通过类型感知归一化与结构化比较方法，取代了传统的LLM评判和子字符串匹配，从而提升了评估过程的客观性与可复现性。

使用方法

使用WebArena Verified数据集时，用户可通过命令行工具或编程接口进行任务评估。首先配置环境并安装依赖，随后利用CLI或Python库加载任务定义与评估配置。评估过程支持文件路径或内联响应两种输入方式，结合网络轨迹数据进行结构化比较，输出标准化评分与状态信息。数据集还提供子集导出功能，便于研究者针对特定难度任务开展针对性实验。

背景与挑战

背景概述

WebArena Verified数据集由ServiceNow研究团队于2024年11月启动，并于2025年12月正式发布，旨在为网络智能体提供可复现的基准测试平台。该数据集源于对原始WebArena基准的全面审计与验证，核心研究问题聚焦于如何构建一个可靠且确定性的评估框架，以准确衡量智能体在复杂网络环境中的任务执行能力。通过手动审核每个任务、参考答案及评估器，该数据集确保了高质量的数据标注，推动了网络智能体领域从依赖实时环境向离线评估的范式转变，对促进智能体研究的严谨性与可比性具有显著影响力。

当前挑战

该数据集致力于解决网络智能体评估中的核心挑战，即如何在动态且开放的网页环境中实现稳定、可复现的性能度量。传统方法常受限于实时网络的不确定性及主观评分机制，导致评估结果缺乏一致性与可靠性。在构建过程中，研究团队面临多重挑战：需设计脱离实时环境的离线评估系统，通过网络轨迹回放技术模拟真实交互；同时，必须摒弃基于大语言模型的评判或简单字符串匹配，转而采用类型感知归一化与结构化比较，以实现完全确定性的评分。此外，创建难度优先的硬性子集也要求对任务复杂性进行精细划分，以支持高效且成本可控的评估流程。

常用场景

经典使用场景

在智能体与网络交互的研究领域，WebArena Verified数据集为评估网络智能体的性能提供了标准化的测试平台。该数据集通过精心设计的网络任务，模拟真实网页环境中的导航、信息检索和操作等场景，使研究者能够系统性地衡量智能体在复杂网络环境中的执行能力。其离线评估机制允许在无需实时网络连接的情况下，通过重放网络轨迹进行可重复的测试，这为智能体的开发和调试提供了高效且可控的实验条件。

解决学术问题

该数据集解决了网络智能体研究中长期存在的评估不可靠性问题。传统方法依赖实时网络环境或主观的LLM评判，导致结果波动大且难以复现。WebArena Verified通过手动审核的任务定义、类型感知的归一化处理和结构化比较，实现了完全确定性的评分，消除了评估中的随机因素。这不仅提升了学术研究的严谨性，还为智能体能力的横向对比建立了统一基准，推动了领域内方法论的标准化进程。

实际应用

在实际应用中，WebArena Verified数据集被广泛用于训练和验证自动化网络操作工具。例如，在客户服务自动化领域，智能体可学习处理在线表单提交、产品查询或故障排查等任务；在数据抓取与整合场景中，智能体能够导航复杂网站结构以提取结构化信息。其提供的WebArena Verified Hard子集特别适用于资源受限环境下的高效评估，帮助开发者优化智能体在真实业务逻辑中的鲁棒性和准确性。

数据集最近研究