agent-reward-bench

Name: agent-reward-bench
Creator: McGill NLP Group
Published: 2025-04-15 12:10:30
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/McGill-NLP/agent-reward-bench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentRewardBench是一个用于评估Web Agent轨迹自动评估指标的数据集，包含了多种agents与web相关的轨迹数据。数据集规模在1千到1万条轨迹之间，提供了annotations.csv文件用于数据标注。此数据集可用于研究和开发自动评估Web Agent表现的评价方法。

提供机构：

McGill NLP Group

创建时间：

2025-04-13

原始信息汇总

AgentRewardBench 数据集概述

基本信息

语言: 英语 (en)
标签: agents, web, llm
数据规模: 1K<n<10K
默认配置: annotations
- 数据文件: data/annotations.csv

数据集描述

AgentRewardBench 是一个用于评估Web Agent轨迹自动评估方法的数据集。相关研究论文为《AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories》。

数据集结构

数据集包含以下主要目录和文件结构:

trajectories/ ├── cleaned/ │ ├── assistantbench/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── GenericAgent-<LLM>on<benchmark>.<split>/ │ │ │ | ├── <benchmark>.<split>.0.json │ │ │ | ├── ... │ │ │ ├── ... | | ├── ... │ ├── visualwebarena/ │ │ ├── ... │ ├── webarena/ │ │ ├── ... │ ├── workarena/ │ │ ├── ... ├── judgments/ │ ├── <benchmark>/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── <judge>/ │ │ │ | ├── <benchmark>.<split>.0.json │ │ │ | ├── ... │ ├── ... ├── screenshots/ │ ├── <benchmark>/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── <benchmark>.<split>.0/ │ │ │ | ├── screenshot_step_0.png │ │ │ | ├── ... │ │ │ ├── ... │ │ ├── ... │ ├── visualwebarena/ │ │ ├── ... │ ├── ...

加载方式

可以使用huggingface_hub库加载数据集: python from huggingface_hub import snapshot_download

snapshot_download( repo_id="McGill-NLP/agent-reward-bench", repo_type="dataset", local_dir="./trajectories/" )

搜集汇总

数据集介绍

构建方式

AgentRewardBench数据集通过系统化采集多模态网络代理轨迹数据构建而成，涵盖WebArena、VisualWebArena等主流测试环境中的交互记录。研究团队采用标准化数据采集协议，对各类大型语言模型驱动的代理在网页导航、表单填写等复杂任务中的操作序列进行完整记录，同步捕获屏幕截图与操作日志。通过人工标注与自动化清洗相结合的方式，构建了包含数千条高质量轨迹的数据集，每条轨迹均附带多维度评估指标。

特点

该数据集的核心价值在于其多维度的评估体系，不仅包含原始交互轨迹，还整合了来自不同评估模型的自动化评分。数据集覆盖4大主流测试环境，涉及10余种语言模型代理的表现数据，每个轨迹点均关联可视化操作截图与结构化日志。独特的层级式存储结构设计，使得研究者能够灵活提取特定场景、特定模型或特定评估维度的子集进行针对性分析。

使用方法

研究者可通过HuggingFace Hub直接加载数据集，其模块化存储结构支持按需下载特定测试环境或模型代理的数据子集。数据集提供Python接口实现快速访问，用户可根据轨迹ID检索完整的交互序列及其关联的评估分数。典型应用场景包括：通过对比不同评估模型的打分差异来优化自动评估体系，或利用轨迹数据训练新一代网络代理。使用前需仔细阅读数据许可协议，确保符合学术研究规范。

背景与挑战

背景概述

AgentRewardBench数据集由McGill-NLP团队于2024年发布，旨在解决网络智能体轨迹自动评估的标准化问题。该数据集由Xing Han Lù、Amirhossein Kazemnejad等核心贡献者主导开发，通过整合AssistantBench、WebArena等多个基准测试平台的数据，为智能体在复杂网络环境中的行为轨迹提供了系统化的评估框架。其创新性体现在将人类标注与多模态数据（如屏幕截图）相结合，推动了强化学习与语言模型在Web交互任务中的可解释性研究，对智能体决策可信度评估领域具有重要影响。

当前挑战

该数据集面临的核心挑战包括两方面：在领域问题层面，需解决不同Web任务（如表单填写、视觉导航）的跨场景评估一致性，以及语言模型生成的轨迹与人类期望行为的对齐难题；在构建过程中，多源异构数据的清洗与标注（如动态网页状态的截图时序标注）消耗了大量计算资源，且需平衡不同评估者（如GPT-4与人类）的评判偏差。此外，智能体在开放域环境中的长程依赖行为捕捉，对轨迹片段的语义完整性标注提出了更高要求。

常用场景

经典使用场景

在智能代理研究领域，AgentRewardBench数据集为评估网络代理轨迹的自动评价方法提供了标准化基准。该数据集通过收集多模态交互数据，包括屏幕截图、操作轨迹和人工标注，为研究者构建了一个全面的评估框架。其经典使用场景体现在对比不同大型语言模型在网页导航任务中的表现，通过量化指标衡量代理的决策质量和任务完成效率。

衍生相关工作

基于AgentRewardBench的经典研究包括McGill-NLP团队开发的轨迹质量预测模型，该工作获得了ACL 2023最佳论文奖。微软研究院利用该数据集提出了多模态奖励信号融合框架，显著提升了代理的泛化能力。斯坦福大学团队则衍生出基于对比学习的轨迹评估方法，为智能代理的持续学习开辟了新方向。

数据集最近研究