The Amazing Agent Race (AAR)
收藏The Amazing Agent Race (AAR) 数据集概述
数据集简介
The Amazing Agent Race (AAR) 是一个用于评估大型语言模型(LLM)智能体在多步骤工具使用、网络导航和算术推理能力的基准测试。它包含 1,400 个有向无环图(DAG)结构的寻宝谜题。
核心发现
- 智能体是强大的工具使用者,但却是弱导航者。 导航错误占主导地位(试验的 27-52%),而工具使用错误保持在 17% 以下。瓶颈在于到达正确的信息,而非找到后使用工具。
- 组合结构放大了导航差距。 从线性结构转向 DAG 结构会使导航分数(PVR)下降 14-18 个百分点,而工具使用分数(RCR)保持稳定甚至有所提高。
- 智能体架构与模型规模同等重要。 Claude Code 以 6 倍更少的令牌 实现了与 Codex CLI 约 37% 的准确率。框架差距大于模型规模差距。
- 推理模型在时间限制下失败。 一个 120B 的推理模型仅达到 3.1% 的准确率——仅略高于 10% 的随机基线——将其预算花费在内部推理而非工具调用上。
基准测试概览
AAR 发布两个变体,总计 1,400 个谜题(称为 leg):
| 变体 | 谜题数量 | 结构 | 平均站点数 | 平均工具数 |
|---|---|---|---|---|
| AAR-Linear | 800 | 顺序链 | 15.0 | 4.0 |
| AAR-DAG | 600 | 分叉-合并菱形结构 | 22.1 | 12.0 |
难度等级
AAR 提供 4 个难度等级,但生成管道完全可调——可以通过改变站点数量、路障密度、绕道频率、菱形数量、提取类型和爬取深度来定义自定义等级。
| 等级 | 站点数 | 路障数 | 绕道数 | 菱形数 | 提取类型 | 爬取深度 |
|---|---|---|---|---|---|---|
| Easy | 3-6 | 1-2 | 1-2 | 1 | infobox, prose | 1 |
| Medium | 7-12 | 2-4 | 2-3 | 1-2 | + cross-section | 2 |
| Hard | 13-16 | 4-5 | 3-4 | 2-3 | + cross-section | 3 |
| Extreme | 17-21 | 5-7 | 4-6 | 3-5 | + cross-section | 3 |
谜题结构
一个谜题是一个站点的有向无环图(DAG),每个站点产生一个类型化的值:
- 路线信息:导航到一个维基百科页面并提取一个事实。
- 路障:执行一个多步骤的工具链。
- 绕道:对先前的值应用分析转换。
- 终点线:通过算术聚合来自先前站点的值,以产生最终答案 y* ∈ {0,...,9}。
菱形模式(仅限 DAG):一个源站点分叉成两个独立的工具链分支,然后合并到一个组合站点中。菱形数量随难度增加(简单为 1,极端最多为 3-5)。
工具集
AAR 提供19 种工具,涵盖八个类别:
| 类别 | 工具 |
|---|---|
| 获取与搜索 | fetch_webpage, web_search |
| 谷歌地图 | maps_geocode, maps_reverse_geocode, maps_search_places, maps_place_details, maps_distance_matrix, maps_elevation, maps_directions |
| 天气 | weather_historical, weather_forecast |
| 代码 | python_execute_code, python_generate_code |
| 国家 | countries_population, countries_area |
| 股票 | stock_historical_price, stock_volume |
| 加密货币 | crypto_historical_price, crypto_volume |
评估指标
| 指标 | 衡量内容 | 描述 |
|---|---|---|
| FA (终点线准确率) | 整体成功率 | 智能体的个位数答案是否与黄金代码匹配? |
| PVR (站点访问率) | 导航能力 | 智能体实际访问的必要维基百科页面的比例 |
| RCR (路障完成率) | 工具使用能力 | 智能体完全执行的必要工具链的比例 |
性能结果
汇总性能(1,400 个谜题)
| 配置 | FA | PVR (导航) | RCR (工具) |
|---|---|---|---|
| Codex CLI + GPT-5.4 | 34.8% | 52.9% | 66.7% |
| Codex CLI + GPT-5.4-mini | 32.1% | 48.0% | 55.3% |
| mini-swe-agent + GPT-5.4 | 30.5% | 51.4% | 43.7% |
| mini-swe-agent + GPT-5.4-mini | 27.2% | -- | -- |
| Claude Code + Sonnet 4 | 36.6% | 46.8% | 67.4% |
数据生成与评估
生成管道
自动化八步管道:爬取、规划、构建、验证、链接、增强、执行、语言化——带有验证门,产生三个互补的指标(FA, PVR, RCR)。
通过 Harbor 进行评估
AAR 评估通过 Harbor 运行,这是一个开源的智能体评估框架。数据集发布在 Harbor 注册表上。
所需 API 密钥:
| 变量 | 用途 | 必需性 |
|---|---|---|
GOOGLE_API_KEY |
地图、海拔、路线、地点 | 是 |
OPENAI_API_KEY |
如果使用基于 OpenAI 的智能体 | 取决于智能体 |
SERPER_API_KEY |
网络搜索工具 | 可选 |
评估环境
- Docker 容器:Python 3.11,10 GB 内存,启用互联网访问
- 超时:每次试验 600 秒(所有难度级别统一)
- 答案格式:智能体将一个个位数(0-9)写入
/app/answer.txt
质量保证
每个谜题满足六个不变性:
- 可解性:黄金执行器在生成时产生正确答案
- API 稳定性:缓存跟踪和页面快照以确保可复现性
- 输入清洁度:对所有位置输入进行地理编码过滤
- 线索信封完整性:往返对齐度 >= 0.7;线索中没有直接的维基百科标题
- 污染抵抗:线索释义、实时 API 依赖、未见过的转换、模运算
- 实例间多样性:在 10K 个采样对中,平均成对 Jaccard 相似度为 0.0005;99.1% 的对不共享任何页面
引用
bibtex @misc{kim2026amazingagentracestrong, title={The Amazing Agent Race: Strong Tool Users, Weak Navigators}, author={Zae Myung Kim and Dongseok Lee and Jaehyung Kim and Vipul Raheja and Dongyeop Kang}, year={2026}, eprint={2604.10261}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2604.10261}, }
许可证
本项目采用 MIT 许可证。




