five

WebArena Verified dataset

收藏
github2025-12-06 更新2025-12-07 收录
下载链接:
https://github.com/ServiceNow/webarena-verified
下载链接
链接失效反馈
官方服务:
资源简介:
WebArena-Verified是WebArena基准测试的验证版本。它分发了一个经过整理的、版本控制的网络任务数据集,以及用于评估代理响应和捕获的网络跟踪的确定性评估器。该项目旨在为网络代理的可重复基准测试提供支持,并提供了用于单任务调试和批量评估的工具。

WebArena-Verified is the verified version of the WebArena benchmark. It distributes a curated, version-controlled web task dataset, along with a deterministic evaluator for assessing agent responses and captured web traces. This project aims to support reproducible benchmarking of web agents, and provides tools for single-task debugging and batch evaluation.
创建时间:
2025-12-03
原始信息汇总

WebArena-Verified 数据集概述

数据集基本信息

  • 数据集名称:WebArena-Verified
  • 发布机构:ServiceNow
  • 性质:WebArena基准测试的已验证版本
  • 核心内容:分发经过策划、版本控制的网络任务数据集,以及基于智能体响应和捕获的网络轨迹进行操作的确定性评估器。

数据集特点与亮点

  • 完全审计的基准测试:每个任务、参考答案和评估器都经过人工审查和修正。
  • 离线评估:无需实时网络环境,可通过网络轨迹回放来评估智能体运行。
  • 确定性评分:移除了基于LLM的评判和子字符串匹配,采用类型感知归一化和结构化比较。
  • WebArena-Verified Hard子集:一个包含258个任务的、按难度优先排序的子集,用于经济高效的评估。

数据集文件与结构

  • 已验证数据集主文件assets/dataset/webarena-verified.json
  • 原始WebArena数据集(供参考)assets/dataset/test.raw.json
  • Hard子集任务ID列表assets/dataset/subsets/webarena-verified-hard.json
  • Hard子集数据导出命令webarena-verified subset-export --name webarena-verified-hard --output webarena-verified-hard.json

用途与功能

  • 用于网络智能体的可复现基准测试。
  • 提供用于单任务调试和批量评估的工具。
  • 支持通过CLI或编程方式(Python库)进行任务获取与评估。

获取与使用

  • 代码仓库地址:https://github.com/ServiceNow/webarena-verified
  • 文档地址:https://servicenow.github.io/webarena-verified/
  • 快速开始:包含环境设置、依赖安装、CLI验证及任务评估的完整流程示例。

引用信息

  • 论文标题:WebArena Verified: Reliable Evaluation for Web Agents
  • 作者:Amine El hattami, Megh Thakkar, Nicolas Chapados, Christopher Pal
  • 会议:Workshop on Scaling Environments for Agents (NeurIPS 2025)
  • 论文链接:https://openreview.net/forum?id=94tlGxmqkN
  • BibTeX引用格式:已提供于README文件中。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建WebArena Verified数据集时,研究团队对原始WebArena基准进行了全面审计与验证。每个任务、参考答案及评估器均经过人工审查与修正,确保数据的准确性与可靠性。数据集采用版本控制机制进行管理,并整合了网络轨迹捕获技术,支持离线环境下的确定性评估。通过类型感知归一化与结构化比较方法,取代了传统的LLM评判和子字符串匹配,从而提升了评估过程的客观性与可复现性。
使用方法
使用WebArena Verified数据集时,用户可通过命令行工具或编程接口进行任务评估。首先配置环境并安装依赖,随后利用CLI或Python库加载任务定义与评估配置。评估过程支持文件路径或内联响应两种输入方式,结合网络轨迹数据进行结构化比较,输出标准化评分与状态信息。数据集还提供子集导出功能,便于研究者针对特定难度任务开展针对性实验。
背景与挑战
背景概述
WebArena Verified数据集由ServiceNow研究团队于2024年11月启动,并于2025年12月正式发布,旨在为网络智能体提供可复现的基准测试平台。该数据集源于对原始WebArena基准的全面审计与验证,核心研究问题聚焦于如何构建一个可靠且确定性的评估框架,以准确衡量智能体在复杂网络环境中的任务执行能力。通过手动审核每个任务、参考答案及评估器,该数据集确保了高质量的数据标注,推动了网络智能体领域从依赖实时环境向离线评估的范式转变,对促进智能体研究的严谨性与可比性具有显著影响力。
当前挑战
该数据集致力于解决网络智能体评估中的核心挑战,即如何在动态且开放的网页环境中实现稳定、可复现的性能度量。传统方法常受限于实时网络的不确定性及主观评分机制,导致评估结果缺乏一致性与可靠性。在构建过程中,研究团队面临多重挑战:需设计脱离实时环境的离线评估系统,通过网络轨迹回放技术模拟真实交互;同时,必须摒弃基于大语言模型的评判或简单字符串匹配,转而采用类型感知归一化与结构化比较,以实现完全确定性的评分。此外,创建难度优先的硬性子集也要求对任务复杂性进行精细划分,以支持高效且成本可控的评估流程。
常用场景
经典使用场景
在智能体与网络交互的研究领域,WebArena Verified数据集为评估网络智能体的性能提供了标准化的测试平台。该数据集通过精心设计的网络任务,模拟真实网页环境中的导航、信息检索和操作等场景,使研究者能够系统性地衡量智能体在复杂网络环境中的执行能力。其离线评估机制允许在无需实时网络连接的情况下,通过重放网络轨迹进行可重复的测试,这为智能体的开发和调试提供了高效且可控的实验条件。
解决学术问题
该数据集解决了网络智能体研究中长期存在的评估不可靠性问题。传统方法依赖实时网络环境或主观的LLM评判,导致结果波动大且难以复现。WebArena Verified通过手动审核的任务定义、类型感知的归一化处理和结构化比较,实现了完全确定性的评分,消除了评估中的随机因素。这不仅提升了学术研究的严谨性,还为智能体能力的横向对比建立了统一基准,推动了领域内方法论的标准化进程。
实际应用
在实际应用中,WebArena Verified数据集被广泛用于训练和验证自动化网络操作工具。例如,在客户服务自动化领域,智能体可学习处理在线表单提交、产品查询或故障排查等任务;在数据抓取与整合场景中,智能体能够导航复杂网站结构以提取结构化信息。其提供的WebArena Verified Hard子集特别适用于资源受限环境下的高效评估,帮助开发者优化智能体在真实业务逻辑中的鲁棒性和准确性。
数据集最近研究
最新研究方向
在智能体与网络交互领域,WebArena Verified数据集正推动着可靠评估范式的革新。该数据集通过全审计基准与离线评估机制,消除了传统依赖实时网络环境的不确定性,为智能体在复杂网页任务中的表现提供了可复现的衡量标准。其前沿研究聚焦于构建确定性评分体系,摒弃了基于大语言模型的评判与子字符串匹配方法,转而采用类型感知归一化与结构化比较技术,显著提升了评估的客观性与一致性。伴随NeurIPS 2025研讨会上的展示,该数据集正促进智能体在真实网络场景中的鲁棒性研究,并为成本效益优化的硬性子集评估开辟了新路径,对推动自动化智能体的实际部署具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作