AgentProcessBench

github2026-03-17 更新2026-03-19 收录

下载链接：

https://github.com/RUCBM/AgentProcessBench

下载链接

链接失效反馈

官方服务：

资源简介：

AgentProcessBench是一个用于评估代理轨迹过程质量的基准数据集。每个轨迹包含多轮消息和工具交互，目标是预测逐步的过程标签。数据集包含1000个轨迹样本，来自4个不同的数据集：hotpotqa、gaia_dev、bfcl和tau2。

AgentProcessBench is a benchmark dataset for evaluating the quality of agent trajectory processes. Each trajectory contains multi-turn messages and tool interactions, with the goal of predicting step-by-step process labels. The dataset includes 1000 trajectory samples from four distinct datasets: hotpotqa, gaia_dev, bfcl, and tau2.

创建时间：

2026-03-15

原始信息汇总

AgentProcessBench 数据集概述

数据集简介

AgentProcessBench 是一个用于智能体轨迹过程级评估的基准测试。每条轨迹包含多轮消息和工具交互，其目标是预测步进式的过程标签。

数据集构成

轨迹数量：共包含 1000 条轨迹。
数据来源：来自 4 个数据集，每个数据集提供 250 个样本。
具体数据集：hotpotqa、gaia_dev、bfcl 和 tau2。

核心目标

评估模型能否在统一的协议下做出可靠的步级过程判断。

支持工具

为支持此基准测试，在 annotation_platform/ 目录下构建了一个专用的数据标注平台。

数据访问

本地基准测试数据位于：data/AgentProcessBench/

评估方法

完整基准测试运行

bash cd /path/to/AgentProcessBench export OPENAI_BASE_URL="your_api_url" export OPENAI_API_KEY="your_api_key" bash eval/eval.sh --model deepseek-chat --concurrency 8

子集示例运行

bash bash eval/eval.sh --model deepseek-chat --datasets hotpotqa --start 0 --end 50 --concurrency 8

评估输出

所有输出均写入 eval/yourresults/ 目录下：

预测结果：eval/yourresults/<run_name>/*.jsonl
原始评判日志：eval/yourresults/_raw/<run_name>/*.jsonl
分数表：eval/yourresults/<run_name>/score.txt

评估指标

每个数据集的指标

step_micro_acc
firsterroracc

整体指标（平均值）

step_micro_acc
firsterroracc

相关资源链接

主页：https://rucbm.github.io/AgentProcessBench-Homepage/
数据集：https://huggingface.co/datasets/LulaCola/AgentProcessBench
论文：https://arxiv.org/abs/2603.14465
文档：https://github.com/RUCBM/AgentProcessBench/blob/main/README.md

搜集汇总

数据集介绍

构建方式

在智能体工具调用研究领域，构建高质量的过程评估基准至关重要。AgentProcessBench的构建源于对智能体执行轨迹进行精细化分析的需求，其数据集通过一个专门开发的标注平台精心构建而成。该平台整合了来自hotpotqa、gaia_dev、bfcl和tau2四个不同领域的原始数据，共计1000条轨迹，每条轨迹均包含多轮对话消息与工具交互记录。研究人员依据统一的协议，对这些轨迹中的每一步进行了人工标注，旨在生成可靠的步骤级过程质量标签，从而为评估模型在复杂任务中的推理链条提供了结构化的基础。

使用方法

对于希望利用该数据集的研究者而言，其使用方法清晰且系统。评估流程始于数据准备，用户需从指定目录加载基准数据。随后，通过配置相应的API密钥并执行提供的自动化评估脚本，即可对目标模型进行测试。脚本支持对整个基准或特定数据子集进行灵活评估，并允许设置并发数以控制计算效率。评估完成后，系统将自动生成详细的输出文件，包括每一步的预测结果、原始评判日志以及汇总的性能分数表，其中关键指标如步骤微观准确率和首次错误准确率，为量化模型的过程质量提供了直接依据。

背景与挑战

背景概述

随着人工智能领域向自主智能体方向演进，对智能体决策过程的精细化评估成为关键研究议题。AgentProcessBench由RUCBM团队于2024年创建，旨在构建一个面向工具使用智能体的步骤级过程质量诊断基准。该数据集聚焦于智能体在执行复杂任务时产生的多轮对话与工具调用轨迹，核心研究问题在于如何系统评估智能体每一步决策的合理性与可靠性。通过整合hotpotqa、gaia_dev、bfcl和tau2四个子集的1000条轨迹数据，该基准为智能体过程推理能力的量化比较提供了统一框架，推动了可解释人工智能与智能体评估方法论的发展。

当前挑战

在智能体过程评估领域，核心挑战在于如何定义并量化步骤级决策质量，这涉及对多模态交互轨迹中隐含逻辑的精准捕捉。AgentProcessBench构建过程中面临多重困难：首先需设计跨领域统一标注协议，以协调不同任务（如知识推理、代码执行）的评估标准；其次需开发专用标注平台处理高维度时序数据，确保多轮工具调用与自然语言交互的关联一致性；最后需解决标注者间偏差控制问题，在保证标注规模的同时维持步骤标签的语义精确度。这些挑战共同指向智能体行为可解释性这一根本难题。

常用场景

经典使用场景

在智能体与工具交互的研究领域，AgentProcessBench 提供了一个标准化的评估框架，用于诊断工具使用型智能体在任务执行过程中的步骤级质量。该数据集通过整合来自 hotpotqa、gaia_dev、bfcl 和 tau2 四个不同领域的轨迹数据，构建了包含多轮消息与工具交互的轨迹样本，使研究者能够在统一协议下系统评估模型对每一步过程可靠性的判断能力。其经典使用场景聚焦于对智能体轨迹进行细粒度分析，从而揭示模型在复杂任务分解与执行中的内在逻辑与潜在缺陷。

解决学术问题

该数据集致力于解决智能体评估中长期存在的“黑箱”问题，即传统评估往往仅关注最终输出结果，而忽视了任务执行过程的合理性与连贯性。通过引入步骤级过程标签预测任务，AgentProcessBench 使得学术界能够量化分析智能体在工具调用、信息整合与决策推理等关键环节的表现。这不仅推动了过程可解释性研究的发展，也为构建更可靠、透明的智能体系统提供了坚实的理论基础与评估标准，对提升智能体在开放域任务中的鲁棒性具有深远意义。

实际应用

在实际应用层面，AgentProcessBench 为开发高性能、高可靠性的工具使用型智能体提供了关键的优化导向。例如，在构建复杂的问答系统或自动化工作流引擎时，开发者可利用该基准测试来诊断智能体在信息检索、计算推理或API调用等具体步骤中的错误模式，从而进行有针对性的模型微调或架构改进。这种过程级的质量监控能力，对于部署在金融分析、科研辅助或客户服务等要求高准确性与可追溯性的现实场景中的智能体系统，具有重要的工程实践价值。

数据集最近研究