AgentArch

Name: AgentArch
Creator: ServiceNow
Published: 2025-09-13 09:18:23
License: 暂无描述

arXiv2025-09-13 更新2025-09-17 收录

下载链接：

https://github.com/ServiceNow/AgentArch

下载链接

链接失效反馈

官方服务：

资源简介：

AgentArch是一个全面的基准数据集，旨在评估复杂多智能体系统中的智能体架构。它涵盖了18种不同的配置，这些配置在当前最先进的大型语言模型上进行了测试。数据集的创建旨在填补现有研究在孤立地评估智能体架构组件方面的空白，并提供了一个实证框架，以评估这些组件如何在现实世界场景中相互作用。

AgentArch is a comprehensive benchmark dataset designed to evaluate agent architectures in complex multi-agent systems. It includes 18 distinct configurations, all tested on current state-of-the-art large language models. This dataset was created to fill the gap in existing research that evaluates agent architecture components in isolation, and to provide an empirical framework for assessing how these components interact in real-world scenarios.

提供机构：

ServiceNow

创建时间：

2025-09-13

原始信息汇总

AgentArch 数据集概述

数据集简介

AgentArch 是一个用于评估企业环境中智能体架构的综合基准测试框架，提供对复杂多智能体系统中不同设计维度相互作用的实证研究。

核心评估维度

编排策略：单智能体与多智能体系统
智能体实现：ReAct 与函数调用方法
内存架构：完整内存与摘要内存管理
思维工具集成：数学推理和信息合成工具

主要发现

无通用架构：模型表现出显著的架构偏好，随用例复杂性而变化
性能差距：顶级模型在复杂企业任务上仅达到 35.3% 成功率，简单工作流达到 70.8%
多智能体 ReAct 限制：所有模型在多智能体 ReAct 配置中表现一致不佳
可靠性挑战：Pass^K 分数峰值仅为 6.34%，表明生产部署存在基本差距

企业用例

1. 请假申请（简单工作流）

复杂度：具有明确成功标准的基本多步推理
工具：8 个定制企业工具
智能体：3 个专业智能体
挑战：日期计算、休假余额验证、政策合规性

2. 客户请求路由（复杂工作流）

复杂度：智能分类和升级决策
工具：31 个定制企业工具
智能体：9 个专业智能体
挑战：模糊请求处理、上下文保存、路由逻辑

评估模型

OpenAI：GPT-4.1、GPT-4o、GPT-4.1-mini、o3-mini
Meta：LLaMA 3.3 70B
Anthropic：Claude Sonnet 4
框架还支持评估 Gemini 系列模型和 Qwen 模型

评估指标

主要指标：可接受分数

成功需要同时实现：

正确的工具选择
准确的工具参数（要求 100% 准确）
正确的最终决策

可靠性指标

Pass@1：k=8 次试验的成功率
Pass^K：所有 k 次试验都成功的概率

行为指标

幻觉率（选择不存在的工具/智能体）
工具重复率
缺失必需工具

许可信息

AgentArch 采用 Apache 2.0 许可证。

引用信息

bibtex @misc{bogavelli2025agentarchcomprehensivebenchmarkevaluate, title={AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise}, author={Tara Bogavelli and Roshnee Sharma and Hari Subramani}, year={2025}, eprint={2509.10769}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.10769}, }

搜集汇总

数据集介绍

构建方式

在企业智能体系统研究领域，AgentArch数据集通过精心设计两个典型企业工作流场景构建而成，包括简单的请假审批流程和复杂的客户请求路由任务。研究团队采用系统化实验设计，对18种智能体架构配置进行交叉评估，涵盖编排策略、提示实现、记忆管理和思维工具四大维度。数据生成过程中模拟真实企业环境复杂性，工具响应包含嵌套JSON结构和噪声数据，每个用例包含60条覆盖全场景的用户话语，并采用人工标注确保地面真实性。

使用方法

研究人员可通过加载标准化的评估框架，对不同大型语言模型在多种智能体架构下的表现进行系统测试。使用时应首先配置实验环境，包括选择模型类型（如GPT-4.1、LLaMA 3.3等）、设定智能体架构参数（单智能体/多智能体、ReAct/函数调用等），然后运行自动化评估流程。结果分析需综合考察通过率、一致性系数和幻觉率等多项指标，特别关注不同架构配置在简单与复杂任务上的性能差异，从而为企业智能体系统的实际部署提供实证依据。

背景与挑战

背景概述

AgentArch数据集由ServiceNow研究院Tara Bogavelli等人于2025年创建，旨在解决企业级多智能体系统架构评估的空白。该数据集聚焦于智能体编排策略、提示实现、记忆架构和思维工具集成四个核心维度，通过对18种智能体配置在六种大型语言模型上的系统性测试，揭示了模型特异性架构偏好现象，挑战了现有智能体系统通用架构范式。其创新性在于首次构建了面向企业复杂工作流的评估体系，为智能体系统设计提供了实证依据。

当前挑战

该数据集主要挑战包括企业级任务的高复杂性要求与当前智能体性能间的显著差距，最高成功率仅达35.3%。构建过程中需克服多智能体协调、工具调用准确性、记忆管理优化等核心技术难题，特别是在处理企业真实场景的模糊请求、复杂路由逻辑和上下文保持方面存在显著困难。数据构造需模拟企业环境的混乱数据结构和长文档处理，并确保60种用户语句覆盖全频谱边缘案例。

常用场景

经典使用场景

在智能体架构研究领域，AgentArch数据集通过模拟企业级工作流程，为多智能体系统的架构设计提供了标准化评估环境。该数据集最经典的使用场景包括评估不同编排策略（如集中式与分布式）、提示实现方式（ReAct与函数调用）以及记忆管理架构在复杂任务中的交互效果，尤其在处理客户请求路由和休假审批等企业级任务时展现出高度实用性。

解决学术问题

AgentArch数据集系统性地解决了多智能体系统中架构组件交互机制不明确的学术问题，填补了企业级场景下实证研究的空白。其通过量化评估18种架构组合在真实业务场景中的表现，揭示了模型特异性架构偏好，挑战了通用化设计范式，并为智能体系统的可靠性、工具调用准确性和决策一致性提供了关键评估基准。

实际应用

在实际应用层面，AgentArch可直接应用于企业自动化系统的开发与优化，例如智能客服系统中的请求分类与工单分配、人力资源领域的休假审批流程自动化。其支持的31种定制化工具和9类智能体协作模式，能够有效提升复杂业务场景下的任务完成精度与系统稳定性，降低人工干预需求。

数据集最近研究