TRAIL
收藏github2025-05-15 更新2025-05-16 收录
下载链接:
https://github.com/patronus-ai/trail-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
TRAIL(跟踪推理和代理问题定位)是一个包含148个标注的AI代理执行跟踪的基准数据集,涵盖推理、执行和规划类别的841个错误。该数据集源自现实世界的软件工程和信息检索任务,挑战了最先进的语言模型,最佳模型的准确率仅为11%,突显了复杂代理工作流跟踪调试的难度。
TRAIL (Tracking Reasoning and Agent Problem Localization) is a benchmark dataset consisting of 148 annotated AI agent execution traces, encompassing 841 errors across three categories: reasoning, execution, and planning. Originating from real-world software engineering and information retrieval tasks, this dataset poses considerable challenges to state-of-the-art language models, as the best-performing model achieves only 11% accuracy, thereby highlighting the inherent difficulty of tracking and debugging complex agent workflows.
创建时间:
2025-05-14
原始信息汇总
TRAIL 基准测试数据集概述
数据集简介
- 名称:TRAIL(Trace Reasoning and Agentic Issue Localization)
- 内容:包含148个标注的AI代理执行轨迹,涵盖841个错误
- 错误类别:推理、执行和规划
- 来源:基于真实世界的软件工程和信息检索任务构建
关键特性
- 挑战性:即使最先进的LLM模型也仅达到11%的准确率
- 目的:用于评估复杂代理工作流中的轨迹调试能力
技术规格
- 安装要求:需通过
pip install -r requirements.txt安装依赖包 - 评估脚本:
run_eval.py支持以下参数:model:兼容litellm的模型IDdata_dir:数据目录路径(默认"data/")output_dir:结果输出目录(默认"results/")max_workers:工作线程数split:数据集分片(可选"GAIA"或"SWE Bench")
结果计算
- 使用
calculate_scores.py脚本计算评估结果 - 输出为存储在
results/目录下的.txt文件
引用信息
bibtex @misc{deshpande2025trail, title={TRAIL: Trace Reasoning and Agentic Issue Localization}, author={Darshan Deshpande and Varun Gangal and Hersh Mehta and Jitin Krishnan and Anand Kannappan and Rebecca Qian}, year={2025}, eprint={2505.08638}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.08638}, }
搜集汇总
数据集介绍

构建方式
TRAIL数据集的构建基于真实世界的软件工程和信息检索任务,通过系统性地收集和标注148个AI代理执行轨迹,涵盖推理、执行和规划三大类别的841个错误实例。研究团队采用严格的标注流程确保错误分类的准确性,每个执行轨迹都经过多轮专家验证,最终形成具有挑战性的基准测试集。该数据集特别关注复杂工作流中的调试难题,为AI代理的故障诊断研究提供了高质量的真实场景数据。
特点
TRAIL数据集的核心价值在于其高度仿真的错误场景和严格的评估标准。数据集包含的841个错误实例分布在推理、执行和规划三个关键维度,全面覆盖AI代理工作流的典型故障模式。特别值得注意的是,即便是最先进的LLM模型在该数据集上也仅能达到11%的准确率,充分证明了其作为评估基准的严苛性。数据集的标注粒度精细,每个错误都关联具体的执行上下文,为研究复杂系统的调试机制提供了丰富的研究素材。
使用方法
使用TRAIL数据集需要配置特定的评估环境,通过安装requirements.txt中的依赖包建立虚拟环境。评估时需运行run_eval.py脚本,指定模型ID、数据目录和输出路径等参数,支持多线程处理以加速评估过程。数据集提供GAIA和SWE Bench两种任务分割,研究人员可根据需要选择测试场景。评估完成后,通过calculate_scores.py脚本自动生成包含各项指标的评分文件,实现标准化的性能比对。整个流程设计兼顾灵活性和可重复性,便于不同研究团队进行横向比较。
背景与挑战
背景概述
TRAIL(Trace Reasoning and Agentic Issue Localization)数据集由Darshan Deshpande等研究人员于2025年创建,旨在为人工智能代理的调试与错误定位提供基准测试。该数据集包含148条标注的AI代理执行轨迹,涵盖841个错误实例,涉及推理、执行和规划等多个类别。这些数据源自真实的软件工程和信息检索任务,为研究复杂代理工作流中的错误诊断提供了宝贵资源。TRAIL的出现填补了该领域高质量标注数据的空白,对推动智能代理的可靠性和可解释性研究具有重要意义。
当前挑战
TRAIL数据集主要针对智能代理工作流中的错误定位问题,其核心挑战在于复杂轨迹的多层次错误诊断。当前最先进的大型语言模型在该数据集上的准确率仅为11%,反映出轨迹调试问题的难度。数据构建过程中面临双重挑战:一方面需要精确标注跨多个维度的错误类型,另一方面需确保数据能真实反映实际应用场景的复杂性。这些挑战使得TRAIL成为评估模型在复杂任务中调试能力的重要试金石。
常用场景
经典使用场景
在人工智能代理的复杂工作流调试领域,TRAIL数据集通过提供148条标注的执行轨迹,成为评估和提升模型在推理、执行和规划错误检测能力的黄金标准。研究人员利用该数据集对大型语言模型进行系统性测试,揭示模型在真实场景下的缺陷,为优化代理行为提供数据支持。
解决学术问题
TRAIL有效解决了复杂代理系统中错误定位困难的学术挑战,其841个跨类别标注错误为理解多模态任务失败机制提供了结构化分析框架。该数据集推动了对AI代理可解释性的研究,使学术界能够量化评估模型在长链条推理任务中的鲁棒性表现。
衍生相关工作
基于TRAIL的基准测试催生了多项创新研究,包括《Hierarchical Trace Analysis》等论文提出的分层错误诊断框架。该数据集还启发了《AgentDebugger》等开源工具的开发,这些工作共同推动了智能代理调试技术从理论到实践的转化。
以上内容由遇见数据集搜集并总结生成



