TRAIL

Name: TRAIL
Creator: Patronus AI
Published: 2025-05-13 22:55:31
License: 暂无描述

arXiv2025-05-13 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/PatronusAI/TRAIL

下载链接

链接失效反馈

官方服务：

资源简介：

TRAIL数据集是Patronus AI创建的一个大型人工标注的执行跟踪数据集，包含148条精心策划的跟踪记录，总计1987个开放遥测跨度，其中575个至少包含一个错误。数据集来源于GAIA和SWE-Bench数据集，覆盖了广泛的任务类型。该数据集旨在解决多智能体系统在现实世界应用中的性能评估和调试问题，并提供了对智能体行为进行调试和根本原因分析的详细分类法。数据集的使用将有助于推动未来在可扩展的智能体工作流程评估研究。

The TRAIL Dataset is a large-scale manually annotated execution tracing dataset developed by Patronus AI. It contains 148 carefully curated execution traces, totaling 1987 open telemetry spans, 575 of which include at least one error. Derived from the GAIA and SWE-Bench datasets, this dataset covers a wide range of task types. This dataset is designed to address performance evaluation and debugging challenges for multi-agent systems in real-world applications, and provides a detailed taxonomy for debugging agent behaviors and conducting root cause analysis. Utilizing this dataset will help advance future research on scalable agent workflow evaluation.

提供机构：

Patronus AI

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

TRAIL数据集通过精心设计的代理工作流程构建，涵盖了软件工程和开放世界信息检索等真实应用场景。数据采集采用OpenTelemetry标准化格式，确保与真实世界追踪系统的兼容性。研究团队从GAIA和SWE-Bench数据集中选取148条工作流轨迹，由专业标注团队根据提出的错误分类法进行细粒度标注，每条轨迹平均标注耗时110分钟，经过四轮独立验证以确保数据质量。

特点

该数据集最显著的特点是建立了全面的代理错误分类体系，涵盖推理、规划和系统执行三大类共841个标注错误。数据集特别关注结构化追踪分析，包含1987个OpenTelemetry跨度，其中575个包含至少一个错误。数据分布呈现长尾特征，42%的错误集中在输出生成类别，而系统执行错误虽少但对系统影响重大，这种分布真实反映了现代代理系统的典型故障模式。

使用方法

TRAIL数据集主要用于评估大型语言模型在代理工作流追踪分析中的表现。使用时需将完整的OpenTelemetry格式追踪数据输入模型，要求模型识别错误类型及其位置。评估指标包括错误类别F1值、定位准确率和联合准确率。由于追踪数据长度常超出模型上下文限制，建议采用分块处理或检索增强技术。数据集配套的HuggingFace排行榜便于研究者比较模型性能。

背景与挑战

背景概述

TRAIL（Trace Reasoning and Agentic Issue Localization）数据集由Patronus AI团队于2025年提出，旨在解决智能体工作流中复杂轨迹的评估与调试问题。随着大语言模型（LLMs）在软件工程、开放世界信息检索等领域的广泛应用，智能体系统的非确定性和多步骤任务特性对传统评估方法提出了严峻挑战。该数据集包含148条人工标注的轨迹，源自GAIA和SWE-Bench基准测试，涵盖1987个OpenTelemetry结构化跨度，其中575个包含错误。TRAIL的创新性在于提出了首个面向智能体系统的细粒度错误分类体系，覆盖推理、规划与协调、系统执行三大核心领域，为智能体行为的根因分析提供了标准化框架。

当前挑战

TRAIL面临的挑战主要体现在两个方面：领域问题层面，当前SOTA模型（如GEMINI-2.5-PRO）在轨迹调试任务中表现欠佳，最高联合准确率仅11%，暴露出LLMs在长上下文推理和结构化错误定位的固有缺陷；构建过程层面，数据标注需处理平均超过28万token的超长轨迹，专家需耗费110分钟/条进行多轮验证，且需平衡高频格式化错误（占42%）与低频高影响错误（如API故障）的样本分布。此外，OpenTelemetry结构化日志的解析要求与现有LLM文本处理能力的错位，进一步增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在智能体系统日益普及的背景下，TRAIL数据集为评估和调试复杂工作流痕迹提供了标准化基准。该数据集通过148条经过专家标注的执行痕迹，覆盖了软件工程和开放世界信息检索等真实场景，特别适用于分析智能体在推理、规划和执行过程中产生的错误。其结构化痕迹数据基于OpenTelemetry标准，能够有效支持长上下文环境下的错误定位研究，成为评估智能体系统可观测性的重要工具。

解决学术问题

TRAIL数据集通过构建形式化的错误分类体系，解决了智能体系统评估中缺乏细粒度诊断标准的难题。该分类法涵盖推理错误（如幻觉、信息处理偏差）、系统执行错误（API故障、资源配置问题）和规划协调错误（上下文管理失效、任务编排失误）三大维度，为研究者提供了系统性分析框架。实验表明，即使最先进的GEMINI-2.5-PRO模型在联合错误分类与定位任务上仅达到11%准确率，凸显了该数据集对推动智能体评估技术发展的挑战价值。

衍生相关工作

TRAIL数据集催生了多个重要研究方向：基于其分类体系发展的MAST框架专注于多智能体推理协调分析；ACPBench利用合成数据扩展了动作规划评估维度；Prometheus模型将其纳入评判能力训练基准。后续研究如AgentBench和CityEQA进一步结合TRAIL的生态效度原则，构建了包含网络导航和城市空间问答的扩展评估体系，推动智能体评估向更复杂的现实场景演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集