TracerTraj

Name: TracerTraj
Creator: 新加坡国立大学，香港中文大学，OPPO，南洋理工大学
Published: 2025-09-03 21:42:14
License: 暂无描述

arXiv2025-09-03 更新2025-11-24 收录

下载链接：

https://github.com/bingreeky/AgenTracer/tree/main/data

下载链接

链接失效反馈

官方服务：

资源简介：

TracerTraj数据集是AgenTracer项目的一部分，该数据集包含超过2000条高保真度的多智能体系统失败轨迹。这些轨迹是通过反事实回放和程序化故障注入自动生成的，旨在帮助理解和识别导致系统失败的关键错误步骤。该数据集用于训练AgenTracer-8B，这是一个轻量级的故障追踪器，能够在多智能体交互中高效地诊断错误。AgenTracer-8B在Who&When基准测试中表现出色，超过了其他大型LLM，为多智能体系统的自我纠正和自我进化提供了强大的支持。

The TracerTraj dataset is part of the AgenTracer project. This dataset contains over 2000 high-fidelity failure trajectories of multi-agent systems. These trajectories are automatically generated via counterfactual replay and procedural fault injection, aiming to help understand and identify the critical erroneous steps that lead to system failures. This dataset is used to train AgenTracer-8B, a lightweight fault tracker that can efficiently diagnose errors during multi-agent interactions. AgenTracer-8B performs excellently in the Who&When benchmark, outperforming other large-scale LLMs, and provides strong support for the self-correction and self-evolution of multi-agent systems.

提供机构：

新加坡国立大学，香港中文大学，OPPO，南洋理工大学

创建时间：

2025-09-03

搜集汇总

数据集介绍

构建方式

TracerTraj数据集通过自动化标注框架AgenTracer构建，整合了六种主流多智能体系统在编程、数学推理及通用任务领域的执行轨迹。该框架采用反事实重放技术，通过系统性地替换失败轨迹中的关键动作以定位决定性错误步骤；同时结合程序化故障注入方法，对成功轨迹进行定向扰动以生成可控的失败实例，最终形成包含两千余条高保真轨迹-错误标注对的数据集。

特点

TracerTraj数据集涵盖多智能体协作中的复杂错误模式，其标注粒度同时覆盖智能体层级与步骤层级的失败归因。数据集融合了手动配置、部分自动化及全自动化三类智能体系统的轨迹，并跨越编码、数学推理与通用代理任务三大领域，具备高度的多样性与真实性。每个失败实例均标注了导致系统崩溃的决定性错误步骤及责任智能体，为研究多智能体系统脆弱性提供了细粒度的分析基础。

使用方法

该数据集可用于训练轻量级失败追踪模型AgenTracer-8B，通过多粒度强化学习优化模型在长序列交互中的错误定位能力。使用时需输入完整的执行轨迹及环境反馈信息，模型将输出错误步骤与责任智能体的联合预测。此外，数据集支持对现有多智能体系统进行自动化调试，通过注入诊断反馈实现性能迭代提升，尤其在复杂任务场景下可显著增强系统的自我修正能力。

背景与挑战

背景概述

TracerTraj数据集由新加坡国立大学与南洋理工大学等机构的研究团队于2025年创建，旨在解决基于大语言模型的多智能体系统故障归因问题。随着多智能体框架在数据科学、软件工程等复杂任务中广泛应用，系统脆弱性导致的高失败率成为制约其可靠性的核心瓶颈。该数据集通过自动化标注框架AgenTracer生成，首次实现了对多智能体轨迹中关键错误步骤的精准定位，为提升智能体系统的自我纠错与进化能力奠定了数据基础。

当前挑战

多智能体系统故障归因面临双重挑战：在领域问题层面，需从冗长的交互轨迹中识别导致任务失败的根本性错误步骤，现有大模型在此任务上的准确率不足10%；在构建过程中，依赖人工标注的轨迹规模有限，且需通过反事实回放与程序化故障注入技术合成高保真失败案例，确保错误标注的精确性与数据多样性。

常用场景

经典使用场景

在大型语言模型驱动的多智能体系统研究中，TracerTraj数据集被广泛应用于系统故障溯源分析。该数据集通过反事实重放和程序化故障注入技术，构建了超过2000条标注错误步骤的多智能体轨迹，为识别复杂协作任务中的关键失误提供了标准化评估基准。研究人员利用其结构化轨迹日志，能够系统分析多智能体在代码生成、数学推理等场景中的交互故障模式。

解决学术问题

该数据集有效解决了多智能体系统脆弱性分析的学术难题，突破了传统手动标注在规模与精度上的局限。通过自动化标注框架，显著提升了故障归因任务的准确率，为理解智能体协作中的错误传播机制提供了数据支撑。其构建方法推动了基于强化学习的轻量级故障追踪器开发，使AgenTracer-8B模型在Who&When基准上的表现超越GPT-4.1等大型模型达18.18%。

衍生相关工作

基于TracerTraj衍生的研究方向包括多粒度强化学习框架的优化、自动化智能体工作流生成等。AgenTracer-8B模型开创的故障归因范式，催生了面向长周期任务的分析工具开发，其反事实干预机制更被扩展应用于智能体信用分配研究。这些工作共同推动了自演进多智能体系统的理论发展与实践创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集