The Amazing Agent Race (AAR)

github2026-04-17 更新2026-04-22 收录

下载链接：

https://github.com/minnesotanlp/the-amazing-agent-race

下载链接

链接失效反馈

官方服务：

资源简介：

AAR是一个包含1,400个DAG结构寻宝谜题的基准数据集，用于评估LLM代理在多步骤工具使用、网络导航和算术推理方面的能力。数据集分为线性结构和DAG结构两种变体，分别包含800和600个谜题。

AAR is a benchmark dataset consisting of 1,400 treasure-hunt puzzles with Directed Acyclic Graph (DAG) structures. It is designed to evaluate the capabilities of LLM Agents in multi-step tool usage, web navigation, and arithmetic reasoning. The dataset includes two variants: linear structure and DAG structure, which contain 800 and 600 puzzles respectively.

创建时间：

2026-04-04

原始信息汇总

The Amazing Agent Race (AAR) 数据集概述

数据集简介

The Amazing Agent Race (AAR) 是一个用于评估大型语言模型（LLM）智能体在多步骤工具使用、网络导航和算术推理能力的基准测试。它包含 1,400 个有向无环图（DAG）结构的寻宝谜题。

核心发现

智能体是强大的工具使用者，但却是弱导航者。 导航错误占主导地位（试验的 27-52%），而工具使用错误保持在 17% 以下。瓶颈在于到达正确的信息，而非找到后使用工具。
组合结构放大了导航差距。 从线性结构转向 DAG 结构会使导航分数（PVR）下降 14-18 个百分点，而工具使用分数（RCR）保持稳定甚至有所提高。
智能体架构与模型规模同等重要。 Claude Code 以 6 倍更少的令牌 实现了与 Codex CLI 约 37% 的准确率。框架差距大于模型规模差距。
推理模型在时间限制下失败。 一个 120B 的推理模型仅达到 3.1% 的准确率——仅略高于 10% 的随机基线——将其预算花费在内部推理而非工具调用上。

基准测试概览

AAR 发布两个变体，总计 1,400 个谜题（称为 leg）：

变体	谜题数量	结构	平均站点数	平均工具数
AAR-Linear	800	顺序链	15.0	4.0
AAR-DAG	600	分叉-合并菱形结构	22.1	12.0

难度等级

AAR 提供 4 个难度等级，但生成管道完全可调——可以通过改变站点数量、路障密度、绕道频率、菱形数量、提取类型和爬取深度来定义自定义等级。

等级	站点数	路障数	绕道数	菱形数	提取类型	爬取深度
Easy	3-6	1-2	1-2	1	infobox, prose	1
Medium	7-12	2-4	2-3	1-2	+ cross-section	2
Hard	13-16	4-5	3-4	2-3	+ cross-section	3
Extreme	17-21	5-7	4-6	3-5	+ cross-section	3

谜题结构

一个谜题是一个站点的有向无环图（DAG），每个站点产生一个类型化的值：

路线信息：导航到一个维基百科页面并提取一个事实。
路障：执行一个多步骤的工具链。
绕道：对先前的值应用分析转换。
终点线：通过算术聚合来自先前站点的值，以产生最终答案 y* ∈ {0,...,9}。

菱形模式（仅限 DAG）：一个源站点分叉成两个独立的工具链分支，然后合并到一个组合站点中。菱形数量随难度增加（简单为 1，极端最多为 3-5）。

工具集

AAR 提供19 种工具，涵盖八个类别：

类别	工具
获取与搜索	`fetch_webpage`, `web_search`
谷歌地图	`maps_geocode`, `maps_reverse_geocode`, `maps_search_places`, `maps_place_details`, `maps_distance_matrix`, `maps_elevation`, `maps_directions`
天气	`weather_historical`, `weather_forecast`
代码	`python_execute_code`, `python_generate_code`
国家	`countries_population`, `countries_area`
股票	`stock_historical_price`, `stock_volume`
加密货币	`crypto_historical_price`, `crypto_volume`

评估指标

指标	衡量内容	描述
FA (终点线准确率)	整体成功率	智能体的个位数答案是否与黄金代码匹配？
PVR (站点访问率)	导航能力	智能体实际访问的必要维基百科页面的比例
RCR (路障完成率)	工具使用能力	智能体完全执行的必要工具链的比例

性能结果

汇总性能（1,400 个谜题）

配置	FA	PVR (导航)	RCR (工具)
Codex CLI + GPT-5.4	34.8%	52.9%	66.7%
Codex CLI + GPT-5.4-mini	32.1%	48.0%	55.3%
mini-swe-agent + GPT-5.4	30.5%	51.4%	43.7%
mini-swe-agent + GPT-5.4-mini	27.2%	--	--
Claude Code + Sonnet 4	36.6%	46.8%	67.4%

数据生成与评估

生成管道

自动化八步管道：爬取、规划、构建、验证、链接、增强、执行、语言化——带有验证门，产生三个互补的指标（FA, PVR, RCR）。

通过 Harbor 进行评估

AAR 评估通过 Harbor 运行，这是一个开源的智能体评估框架。数据集发布在 Harbor 注册表上。

所需 API 密钥：

变量	用途	必需性
`GOOGLE_API_KEY`	地图、海拔、路线、地点	是
`OPENAI_API_KEY`	如果使用基于 OpenAI 的智能体	取决于智能体
`SERPER_API_KEY`	网络搜索工具	可选

评估环境

Docker 容器：Python 3.11，10 GB 内存，启用互联网访问
超时：每次试验 600 秒（所有难度级别统一）
答案格式：智能体将一个个位数（0-9）写入 /app/answer.txt

质量保证

每个谜题满足六个不变性：

可解性：黄金执行器在生成时产生正确答案
API 稳定性：缓存跟踪和页面快照以确保可复现性
输入清洁度：对所有位置输入进行地理编码过滤
线索信封完整性：往返对齐度 >= 0.7；线索中没有直接的维基百科标题
污染抵抗：线索释义、实时 API 依赖、未见过的转换、模运算
实例间多样性：在 10K 个采样对中，平均成对 Jaccard 相似度为 0.0005；99.1% 的对不共享任何页面

引用

bibtex @misc{kim2026amazingagentracestrong, title={The Amazing Agent Race: Strong Tool Users, Weak Navigators}, author={Zae Myung Kim and Dongseok Lee and Jaehyung Kim and Vipul Raheja and Dongyeop Kang}, year={2026}, eprint={2604.10261}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2604.10261}, }

许可证

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在智能体评估领域，构建能够系统检验多维度能力的基准至关重要。The Amazing Agent Race (AAR) 数据集通过一个自动化的八步生成流水线构建而成，该流水线涵盖网络爬取、路径规划、结构构建、验证、链接、增强、执行与语言化等环节。其核心是从维基百科种子页面出发，依据预设的难度参数（如站点数量、路障密度、分合结构复杂度）生成有向无环图结构的寻宝谜题。每个谜题均经过严格的验证关口，确保其可解性、API稳定性与输入清洁度，最终生成了包含1400个谜题（800个线性结构与600个DAG结构）的高质量基准。

特点

该数据集在智能体基准测试中展现出鲜明的结构性特征。其全部1400个谜题均采用有向无环图设计，彻底摆脱了传统基准中常见的线性任务依赖，从而能更精确地评估智能体在复杂、分支路径下的导航与规划能力。数据集依据难度划分为四个等级，通过调整站点数量、路障、绕行及钻石形分合模式的数量来系统控制任务复杂性。此外，数据集提供了涵盖网络搜索、地图服务、天气、代码执行等八个类别的19种工具，并设计了三个互补的评估指标——终点线准确率、站点访问率与路障完成率，以分别衡量整体成功率、导航能力与工具使用能力。

使用方法

为使用该数据集评估智能体性能，研究者可通过Harbor评估框架便捷地进行。数据集已发布在Harbor注册中心，用户安装Harbor后，即可通过命令行指定数据集版本与智能体配置（如Claude Code模型）启动评估任务，评估环境运行在具有网络访问权限的Docker容器中。对于希望进行本地评估或生成新谜题的用户，项目仓库提供了完整的生成脚本与适配器。用户可基于任意维基百科种子页面，利用开放的生成流水线创建自定义难度与结构的谜题，并将其转换为Harbor任务格式进行测试，整个过程需要配置相应的API密钥以驱动工具调用与部分生成步骤。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）代理的评估长期依赖于线性任务结构，难以捕捉真实世界问题解决中常见的分支与合并逻辑。为应对这一局限，明尼苏达大学自然语言处理团队于2026年发布了The Amazing Agent Race（AAR）数据集，该数据集包含1,400个有向无环图（DAG）结构的寻宝谜题，旨在系统评估LLM代理在多步骤工具使用、网络导航和算术推理方面的综合能力。AAR通过引入DAG结构模拟复杂决策路径，核心研究聚焦于揭示代理在非线性环境中的导航瓶颈，其设计显著推动了具身智能与工具增强型代理的基准测试向更富组合性与现实性的方向发展。

当前挑战

AAR数据集所针对的核心领域挑战在于评估LLM代理在复杂、非线性环境下的综合问题解决能力，特别是导航与工具使用的协同效能。现有基准大多为线性结构，无法有效测试代理在面临分支、合并等动态路径时的决策鲁棒性。在构建过程中，研究团队需克服多重技术难题：一是确保DAG谜题在保持高组合复杂度的同时具备确定可解性；二是实现大规模自动化生成流程，并整合多类外部API工具以模拟真实交互场景；三是维持数据质量，通过严格的验证门控机制保证谜题多样性、API稳定性与抗污染性，避免模型在训练数据上的记忆偏差影响评估效度。

常用场景

经典使用场景

在大型语言模型智能体评估领域，The Amazing Agent Race（AAR）数据集为研究者提供了一个结构化的基准测试平台。其经典使用场景集中于评估智能体在复杂、非线性任务环境中的综合表现，特别是针对多步骤工具使用、网络导航与算术推理的协同能力。通过1400个有向无环图结构的寻宝谜题，研究者能够系统性地测试智能体在动态信息检索、API调用链执行以及数值计算转换等环节的鲁棒性。该数据集通过精心设计的难度梯度与验证机制，使得模型在面临路径分叉、信息融合等挑战时的决策能力得以量化比较。

衍生相关工作

基于AAR数据集的结构化评估范式，衍生出多类重要的后续研究工作。在智能体架构设计方面，研究者通过分析导航错误模式，提出了增强型记忆机制与路径规划模块，以改善智能体在DAG环境中的决策连贯性。工具使用优化研究则聚焦于API调用链的容错设计与上下文感知调度，降低多步骤操作中的累积误差。评估方法论领域出现了针对组合任务的新度量标准，如分阶段成功率与资源消耗效率的联合优化框架。同时，该数据集启发了对“推理-行动”平衡机制的深入探讨，特别是时间约束下大型语言模型在外部工具调用与内部计算之间的资源分配策略。

数据集最近研究