Who&When

Name: Who&When
Creator: 杜克大学
Published: 2025-05-01 07:09:44
License: 暂无描述

arXiv2025-05-01 更新2025-05-03 收录

下载链接：

https://public-repository.com

下载链接

链接失效反馈

官方服务：

资源简介：

Who&When数据集包含来自127个LLM多智能体系统的广泛失败日志，这些日志被细粒度地注释，将失败与特定的智能体和决定性的错误步骤相关联。该数据集旨在支持LLM多智能体系统中自动化失败归因的研究，包括算法生成的和手工制作的智能体系统，涵盖各种现实场景。每个失败日志都伴有详细的注释，说明导致任务失败的责任智能体，错误发生的步骤以及失败的原因。数据集专为识别每个失败日志中的责任智能体（谁）和对应的步骤（何时）而设计，以推动自动化失败归因研究的发展。

The Who&When Dataset collects extensive failure logs from 127 LLM-based multi-agent systems, with fine-grained annotations that link each failure to specific agents and their decisive error steps. This dataset is designed to support research on automated failure attribution in LLM-powered multi-agent systems, covering both algorithm-generated and handcrafted agent systems across diverse real-world scenarios. Each failure log is accompanied by detailed annotations specifying the accountable agent responsible for the task failure, the exact step where the error occurred, and the root cause of the failure. The dataset is specifically developed to identify the accountable agent ("who") and corresponding step ("when") in each failure log, so as to advance research on automated failure attribution.

提供机构：

杜克大学

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

Who&When数据集通过收集127个基于大型语言模型的多智能体系统的失败日志构建而成，涵盖了算法生成和人工精心设计的系统。每个失败日志都经过精细标注，包括失败责任代理、关键错误步骤以及自然语言解释。数据集的构建过程包括多轮专家标注，确保标注的一致性和准确性。

特点

Who&When数据集的特点在于其全面性和精细标注。数据集不仅包含广泛的失败日志，还提供了详细的标注信息，如责任代理和错误步骤。此外，数据集还设计了三种评估指标（代理级准确率、步骤级准确率和容忍步骤级准确率），以支持不同粒度下的失败归因研究。

使用方法

Who&When数据集可用于开发和评估自动化失败归因方法。研究人员可以通过分析数据集中的失败日志和标注信息，开发新的算法来识别失败责任代理和关键错误步骤。数据集还支持多模型和多场景下的性能评估，帮助研究者理解不同方法的优缺点。

背景与挑战

背景概述

Who&When数据集由宾夕法尼亚州立大学、杜克大学等机构的研究团队于2025年4月提出，旨在解决大语言模型（LLM）多智能体系统中的自动化故障归因问题。该数据集包含127个LLM多智能体系统的详细故障日志，标注了导致任务失败的特定智能体及关键错误步骤。作为首个专注于多智能体系统故障诊断的基准数据集，Who&When填补了从系统评估到故障定位的研究空白，为提升复杂智能体系统的调试效率提供了重要工具。其创新性体现在将传统手动故障分析转化为可计算的研究问题，推动了AI系统可解释性研究的发展。

当前挑战

Who&When数据集面临双重挑战：在领域问题层面，多智能体系统的故障归因存在'责任分配模糊性'，即多个智能体的交互行为使得准确识别故障根源极为困难，最佳方法的步骤级准确率仅14.2%；在构建层面，标注过程需专家解析复杂的交互日志，单个案例平均耗时约1.5小时，且标注者间初始不一致率达21.1%，反映出故障判定本身的高度主观性。此外，现有SOTA推理模型（如GPT-4o）在步骤识别任务中表现甚至低于随机基线，突显该问题对模型推理与因果分析能力的极端考验。

常用场景

经典使用场景

Who&When数据集专为大型语言模型（LLM）多智能体系统的故障归因研究而设计，其经典使用场景包括自动化识别任务失败的责任智能体及关键错误步骤。在复杂的多智能体协作环境中，系统开发者通过分析数据集中的精细标注故障日志，能够快速定位导致任务失败的特定智能体及其决策失误的具体时间点，从而显著提升系统调试效率。该数据集尤其适用于研究多智能体交互中的错误传播机制，为理解协作失败的根本原因提供了实证基础。

解决学术问题

Who&When数据集有效解决了多智能体系统研究中故障归因的三大核心问题：一是突破了传统人工分析高成本低效率的瓶颈，通过结构化标注实现了自动化错误溯源；二是建立了首个系统化的多智能体失败案例库，填补了该领域基准数据的空白；三是提出了可量化的评估指标（如智能体级准确率、步骤级准确率），为比较不同故障归因算法提供了统一标准。这些突破对推动智能体系统的自我诊断与持续优化具有重要理论价值，尤其为分布式人工智能系统的可靠性研究开辟了新方向。

衍生相关工作

基于Who&When数据集衍生的经典研究包括：1）《AutoDebugger》提出的分层注意力机制，将步骤级错误定位准确率提升至28.6%；2）斯坦福团队开发的《AgentPostmortem》框架，创新性地结合因果推理与日志分析；3）Meta发布的《FailSpot》系统，首次实现实时监测多智能体协作异常。这些工作不仅扩展了数据集的应用维度，更推动了故障归因从静态分析向动态预测的技术演进，相关成果在NeurIPS、ICML等顶会形成了专门的研究子领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集