AgentFail
收藏arXiv2025-09-28 更新2025-10-01 收录
下载链接:
https://arxiv.org/abs/2509.23735
下载链接
链接失效反馈官方服务:
资源简介:
AgentFail数据集由中国科学院软件研究所构建,包含来自两个代表性平台Dify和Coze的307个失败日志。每个实例包括查询内容、系统工作流和配置、执行失败日志以及失败的根本原因注释。数据集旨在帮助研究人员理解平台协调智能体系统的失败原因,并促进开发更可靠的智能体系统。
AgentFail dataset is constructed by the Institute of Software, Chinese Academy of Sciences. It contains 307 failure logs sourced from two representative platforms, Dify and Coze. Each instance includes query content, system workflow and configuration, execution failure logs, and annotated root causes of failures. This dataset aims to help researchers understand the failure causes of platform-coordinated agent systems, and promote the development of more reliable agent systems.
提供机构:
中国科学院软件研究所
创建时间:
2025-09-28
原始信息汇总
数据集概述
基本信息
- 标题: Diagnosing Failure Root Causes in Platform-Orchestrated Agentic Systems: Dataset, Taxonomy, and Benchmark
- arXiv ID: 2509.23735
- 提交日期: 2025年9月28日
- 学科分类: 人工智能 (cs.AI)、软件工程 (cs.SE)
作者信息
- 作者: Xuyan Ma, Xiaofei Xie, Yawen Wang, Junjie Wang, Boyu Wu, Mingyang Li, Qing Wang
- 作者数量: 7人
数据集内容
- 数据集名称: AgentFail
- 数据规模: 包含来自10个智能体系统的307个故障日志
- 标注特征: 每个故障日志都带有细粒度标注,将故障与其根本原因相关联
- 标注可靠性: 采用反事实推理修复策略确保标注的可靠性
研究贡献
- 分类体系: 开发了描述故障根本原因的分类体系
- 分析维度: 分析了不同平台和任务领域中故障根本原因的分布
- 基准测试: 引入了利用大语言模型自动识别根本原因的基准测试
研究结果
- 分类体系效用: 分类体系能够大幅提高性能
- 识别准确率: 根本原因识别的最高准确率达到33.6%
- 实践指导: 提供了构建此类智能体系统的可操作指南
资源链接
- 论文PDF: https://arxiv.org/pdf/2509.23735
- HTML版本: https://arxiv.org/html/2509.23735
- TeX源码: https://arxiv.org/format/2509.23735
- DOI: https://doi.org/10.48550/arXiv.2509.23735
搜集汇总
数据集介绍

构建方式
AgentFail数据集通过系统化方法构建,涵盖平台编排智能体系统的故障分析。研究团队从Dify和Coze两大代表性平台选取十个智能体系统,覆盖软件开发、任务规划等多元任务类型,并采用串行、并行等五种典型工作流结构。故障日志来源包括开源社区贡献的公开故障报告以及基于HumanEval等基准数据集的受控实验运行,最终汇集307条故障案例。每条数据实例均包含查询内容、系统工作流配置、完整执行轨迹及经过多轮专家标注的故障根因,并通过反事实推理修复实验验证标注可靠性。
特点
该数据集具备多维度特征价值,其核心在于构建了涵盖智能体、工作流和平台三个层级的三级故障根因分类体系。智能体级故障聚焦语言模型响应偏差与知识局限,工作流级故障揭示节点依赖与协调机制缺陷,平台级故障则关注资源波动与服务可用性。数据集不仅呈现故障分布的统计规律,还通过注入实验量化不同根因对系统执行结果的影响程度,例如平台级故障更易导致执行中断,而智能体级故障多引发结果质量退化。这种细粒度标注为理解智能体系统脆弱性提供了结构化分析框架。
使用方法
该数据集支持智能体系统可靠性研究的多种应用路径。研究者可基于标注的故障根因开展诊断算法开发,例如利用工作流轨迹分析错误传播模式。数据集中完整的工作流配置与执行日志支持系统行为复现,便于进行故障注入与修复策略验证。此外,分类体系可作为提示词指导大语言模型进行自动化根因识别,数据集中提供的多模型基准测试结果揭示了当前技术瓶颈。对于系统开发者,可通过分析跨平台故障分布规律优化工作流设计,例如针对高频故障类型增设输入验证节点或冗余容错机制。
背景与挑战
背景概述
随着大语言模型在推理与规划任务中展现出卓越能力,基于多智能体协作的平台化编排系统应运而生。2025年,中国科学院软件研究所与新加坡管理大学联合团队发布了AgentFail数据集,聚焦于平台编排智能体系统的故障根因诊断。该数据集收录了来自Dify、Coze等主流平台的307条故障日志,涵盖软件研发、旅行规划等十类典型任务场景,通过多轮专家标注与反事实修复验证构建了可靠的故障归因体系。其核心研究目标在于揭示智能体系统在复杂工作流中的脆弱性机制,为构建可信赖的智能体生态系统提供实证基础。
当前挑战
该数据集致力于解决平台编排智能体系统的故障根因定位难题,面临双重挑战:在领域问题层面,需突破传统故障定位方法仅能识别故障发生位置(如具体智能体)的局限,深入诊断故障诱因(如提示词缺陷、工作流死锁等);在构建过程中,需克服故障日志中错误传播路径的复杂性,通过反事实推理修复实验确保标注可靠性,并建立涵盖智能体层、工作流层、平台层的三维分类体系。实验表明,即使引入分类学指导,现有大模型在故障根因识别任务中的最高准确率仅为33.6%,凸显了该任务的前沿性与挑战性。
常用场景
经典使用场景
在智能体系统可靠性研究领域,AgentFail数据集为诊断平台编排的多智能体系统故障根源提供了关键支撑。该数据集通过收集来自Dify和Coze等低代码平台的307个故障日志,系统记录了软件开发、任务规划、问答系统等多样化场景中的执行轨迹。研究人员可基于这些详尽的故障轨迹分析,深入探究智能体系统在复杂工作流中的失效模式,为构建更稳健的智能体协作框架奠定实证基础。
实际应用
在工程实践层面,AgentFail为智能体系统的开发调试提供了重要参考。开发人员可依据数据集中揭示的故障模式,在设计阶段预先规避常见的架构缺陷。例如针对响应格式错误频发的问题,可在关键节点植入格式验证机制;对于工作流死锁风险,可采用渐进式架构设计策略。平台方亦可基于故障分布规律优化节点编排逻辑,增强工具调用的容错能力,从而显著提升智能体系统在实际业务场景中的稳定性与可靠性。
衍生相关工作
该数据集催生了系列创新性研究,其中最具代表性的是基于大语言模型的自动化故障诊断基准。研究者通过将分类体系融入提示工程,开发了全量诊断、逐步追溯和二分搜索等多种推理策略,显著提升了模型对复杂故障链的解析能力。同时,数据集中揭示的故障传播规律为动态监测框架的设计提供了理论依据,推动了如频谱分析、反事实重放等新型诊断方法的诞生,形成了从故障归因到系统优化的完整技术链条。
以上内容由遇见数据集搜集并总结生成



