agent-reward-bench
收藏AgentRewardBench 数据集概述
基本信息
- 语言: 英语 (en)
- 标签: agents, web, llm
- 数据规模: 1K<n<10K
- 默认配置: annotations
- 数据文件: data/annotations.csv
数据集描述
AgentRewardBench 是一个用于评估Web Agent轨迹自动评估方法的数据集。相关研究论文为《AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories》。
相关资源
- 代码: https://github.com/McGill-NLP/agent-reward-bench
- 论文: https://arxiv.org/abs/2504.08942
- 网站: https://agent-reward-bench.github.io
- 演示: https://huggingface.co/spaces/McGill-NLP/agent-reward-bench-demo
- 排行榜: https://huggingface.co/spaces/McGill-NLP/agent-reward-bench-leaderboard
数据集结构
数据集包含以下主要目录和文件结构:
trajectories/ ├── cleaned/ │ ├── assistantbench/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── GenericAgent-<LLM>on<benchmark>.<split>/ │ │ │ | ├── <benchmark>.<split>.0.json │ │ │ | ├── ... │ │ │ ├── ... | | ├── ... │ ├── visualwebarena/ │ │ ├── ... │ ├── webarena/ │ │ ├── ... │ ├── workarena/ │ │ ├── ... ├── judgments/ │ ├── <benchmark>/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── <judge>/ │ │ │ | ├── <benchmark>.<split>.0.json │ │ │ | ├── ... │ ├── ... ├── screenshots/ │ ├── <benchmark>/ │ │ ├── GenericAgent-<LLM>/ │ │ │ ├── <benchmark>.<split>.0/ │ │ │ | ├── screenshot_step_0.png │ │ │ | ├── ... │ │ │ ├── ... │ │ ├── ... │ ├── visualwebarena/ │ │ ├── ... │ ├── ...
加载方式
可以使用huggingface_hub库加载数据集:
python
from huggingface_hub import snapshot_download
snapshot_download( repo_id="McGill-NLP/agent-reward-bench", repo_type="dataset", local_dir="./trajectories/" )




