five

Agent-Trace Corpus (ATC)

收藏
arXiv2026-04-29 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/searchsim/agentsim-atc
下载链接
链接失效反馈
官方服务:
资源简介:
Agent-Trace Corpus (ATC)是由帕绍大学团队基于AgentSim平台构建的大规模可验证推理轨迹数据集,涵盖MS MARCO、Quasar-T和CausalQA三大信息检索基准。该数据集包含103,567条细粒度推理步骤,每条轨迹均关联具体检索文档,实现100%实质性答案的 grounding验证。通过嵌入聚类和主动验证机制,确保数据覆盖广泛主题且质量可靠,适用于RAG智能体的训练与行为分析,推动可信赖AI代理的发展。

Agent-Trace Corpus (ATC) is a large-scale verifiable reasoning trace dataset constructed by the team from the University of Passau based on the AgentSim platform. It covers three information retrieval benchmarks: MS MARCO, Quasar-T and CausalQA. This dataset contains 103,567 fine-grained reasoning steps, with each trace linked to specific retrieved documents, enabling 100% grounding verification for substantive answers. Through embedding clustering and active validation mechanisms, the dataset ensures wide topical coverage and reliable quality, which is applicable to the training and behavior analysis of RAG AI Agents, and promotes the development of trustworthy AI agents.
提供机构:
帕绍大学; 奥地利大学·跨学科转型
创建时间:
2026-04-29
原始信息汇总

AgentSim Agent-Trace Corpus (ATC) 数据集概述

基本信息

  • 数据集名称:AgentSim Agent-Trace Corpus (ATC)
  • 数据集地址:https://huggingface.co/datasets/searchsim/agentsim-atc
  • 许可证:MIT License(但上游源数据集保留各自原有许可证)
  • 语言:英文
  • 数据集大小:100K < n < 1M

数据集构成

核心规模

指标 数量
推理步骤(reasoning steps) 103,567
监督三元组(query-document-answer) 20,548
唯一检索文档 199,968

数据来源

数据集基于三个信息检索基准构建:

  • Quasar-T:38,915 步
  • CausalQA:36,192 步
  • MSMARCO:28,460 步

数据文件结构

traces/<dataset>.jsonl.gz # 步骤级推理轨迹(共103,567条) trajectories/<dataset>.jsonl.gz # 状态-动作-奖励元组(共103,564条) supervised/<dataset>.jsonl.gz # 查询-文档-答案三元组(共20,548条) queries/ # 所有26,176个生成的查询 retrievals/ # 199,968个唯一检索文档 corpus_stats.json # 语料库级元数据

数据模式(Schema)

traces/(步骤级推理)

字段包括:step_id, goal, action, rationale_tag, operator_intent, stop_condition, timestamp, private_reasoning, llm_input, llm_output, tool_input, tool_output, evidence_retrieved, evidence_count, execution_time_ms, error, _source, source_dataset, source_license

trajectories/(状态-动作元组)

字段包括:state, action, reward, next_state, done, _source, source_dataset, source_license

supervised/(监督三元组)

字段包括:step_id, input, output, tool, rationale_tag, decision_label, latency_ms, tokens, _source, source_dataset, source_license

许可证与使用限制

源数据集 许可证 允许用途
MSMARCO MS Research 仅限研究用途,非商业
Quasar-T BSD-3-Clause 允许商业使用
CausalQA Research use 需检查上游使用条款

重要提示:每行数据都带有 source_license 字段,用户可根据许可证进行过滤。AgentSim生成的包装数据使用MIT许可证,但不覆盖上游源数据的原有限制。

预期用途

  • 基础模型信息搜索行为分析
  • 基于接地监督的思维链微调
  • 查询重构策略的模仿学习
  • 从大模型到小模型的知识蒸馏
  • 基于每步分歧分数的过程奖励建模

超出范围的使用

  • 训练与OpenAI服务竞争的模型(如果训练集中包含GPT-4o衍生的轨迹)
  • 对MSMARCO衍生数据的商业再分发

生成流程

AgentSim 平台生成,采用两个关键机制:

  1. 语料感知种子选择:使用K-Means聚类、MMR选择和检索新颖性过滤
  2. 主动验证:分析师-评论者-评审者流水线,对分歧分数高于0.4的步骤进行人工审核

局限性

  • 继承了源IR基准的偏差(MSMARCO的网页段落偏差、Quasar-T的冷知识偏差)
  • 论文中报告的行为发现(GPT-4o vs Mistral-Large vs DeepSeek-V3的重构模式)特定于被评估的基础模型

关联数据集

  • agentsim-atc(本数据集):面向单跳/浅层QA的103,567步轨迹
  • agentsim-atc-multihop:面向多跳QA的1,490条SFT轨迹 + 2,980条DPO偏好对

加载方式

python from datasets import load_dataset traces = load_dataset("searchsim/agentsim-atc", "traces", split="train") trajs = load_dataset("searchsim/agentsim-atc", "trajectories", split="train") sup = load_dataset("searchsim/agentsim-atc", "supervised", split="train")

搜集汇总
数据集介绍
main_image_url
构建方式
Agent-Trace Corpus (ATC) 的构建依托于 AgentSim 平台,该平台通过模拟检索增强生成(RAG)代理的认知工作流来生成可验证的推理轨迹。构建过程首先利用语料感知种子选择策略,基于嵌入聚类与新颖性过滤机制,从 MS MARCO、Quasar-T 和 CausalQA 三个基准语料库中系统采样起始查询,以确保覆盖文档空间的广度与多样性。随后,模拟执行多步推理循环,包括查询生成、文档检索、相关性评估与信息合成,每一步均由大语言模型(如 GPT-4o、Mistral-Large 和 DeepSeek-v3)作为分析器完成。最后,通过主动验证环路引入多模型分歧检测与人工审核,聚焦于模型意见不一致的困难步骤,经提升、修订或弃置后输出高质量轨迹。整个流程产出了超过 103,000 个可验证的推理步骤,并提取出 20,548 个监督训练对,确保每个推理步骤均与来源语料中的具体文档建立可追溯的关联。
特点
ATC 的核心特点在于其高度的可验证性与多样化的推理覆盖。与仅提供最终答案或未锚定外部文档的推理轨迹数据集不同,ATC 中的每一步推理都明确链接至源语料中的具体文档,实现了 100% 的实质性回答接地率,且平均令牌覆盖率达到 0.872,这是现有推理数据集未曾实现的细粒度验证水平。该语料库的多样性体现在三个层面:来源语料的多样性(涵盖普通网页检索、事实问答与因果推理任务)、分析模型的多样性(三种不同架构的大模型)以及推理步骤的丰富性(包括查询重构、文档评估、信息综合与策略调整等认知环节)。此外,语料库在质量保障上采用主动验证环路,将人类审核精力集中于模型分歧最大的难点步骤,使得 79.3% 的种子查询经迭代审核后接地性得到改善。最终语料以三种格式发布,分别满足过程级分析、行为建模与监督微调的需求。
使用方法
ATC 支持多种训练范式与下游应用。研究人员可直接使用监督配对数据(query–document–answer 三元组)进行指令微调,例如对 Qwen 2.5 或 Gemma-3 等小型模型进行 LoRA 训练,实验表明 0.5B 模型在拒答检测 F1 值上从 0.362 提升至 0.815,达到了三倍规模基础模型的性能。完整的轨迹数据可用于链式思维微调,为模型提供基于文档的显式推理过程。行为分析者可利用高层次的行动序列数据研究代理的探索策略与查询重构模式,例如对比不同模型在概念扩展与语法简化上的差异。对于蒸馏学习,ATC 可作为教师信号,使小模型学习大模型的推理行为。语料库还提供近 200,000 篇唯一文档与 26,176 个生成查询,适用于查询优化和检索策略学习。所有数据以 JSONL 格式发布,兼容主流深度学习框架,且平台与工具链均开源,便于研究者复现实验或基于自有语料生成定制轨迹。
背景与挑战
背景概述
在大型语言模型向自主智能体演进的浪潮中,检索增强生成(RAG)智能体展现出巨大的应用潜力,然而其内部推理过程的不透明性成为制约可信度的关键瓶颈。为应对这一挑战,帕绍大学的Saber Zerhoudi、Michael Granitzer与Jelena Mitrović于2026年共同构建了Agent-Trace Corpus(ATC)。该数据集依托AgentSim平台,通过语料感知播种与主动验证两大机制,生成超过103,000步可验证的推理轨迹,覆盖MS MARCO、Quasar-T与CausalQA三大经典信息检索基准。ATC的核心贡献在于将静态的问答对转化为动态、可审计的信息检索认知流,揭示了智能体在查询构建、文档评估与策略适应等中间环节的完整思考过程,为训练更透明、更可信的RAG智能体提供了关键数据基础。
当前挑战
ATC所应对的核心挑战存在于两个层面。在领域问题层面,现有数据集存在显著认知鸿沟:问答数据集仅提供最终答案,思维链数据缺乏外部文档支撑,而网络智能体基准则聚焦界面操作而非检索与合成的认知流程。这种数据缺失导致智能体的推理过程如同黑箱,难以进行调试与信任评估。在构建过程层面,ATC面临双重技术挑战:其一,如何避免随机采样导致的主题冗余,确保语料的广泛覆盖——这通过基于嵌入聚类的语料感知播种策略得以解决,实现了100%的聚类覆盖率;其二,如何以经济高效的方式保证推理步骤的可靠性——主动验证循环利用多模型分歧度(Divergence Score)自动标记模棱两可的步骤,将人工审核精准聚焦于争议案例,同时通过置信度评分自动触发低可信步骤的重新检索,最终实现了100%的事实答案文档溯源率。
常用场景
经典使用场景
Agent-Trace Corpus (ATC) 最经典的应用场景是作为检索增强生成(RAG)智能体的可验证推理轨迹数据集,用于训练和评估智能体在多步信息寻求过程中的中间推理能力。该数据集提供了从问题理解、查询重构、文档检索到信息综合的全流程可追踪轨迹,使研究者能够揭示智能体在复杂知识密集型任务中的认知决策链条,而不仅仅依赖最终答案的正确性。ATC 在 MS MARCO、Quasar-T 和 CausalQA 三大经典信息检索基准上构建,覆盖了网页段落检索、事实问答和因果推理等多样化任务场景,为系统研究智能体的探索策略、查询重写模式及不确定性下的综合行为提供了标准化平台。
解决学术问题
ATC 系统地解决了现有数据集无法捕捉 RAG 智能体中间推理过程的学术困境。传统问答数据集仅提供查询-答案对,缺失检索与合成步骤;链式推理数据集虽记录逐步推理,却缺乏对外部文档的可验证性;而 Web 智能体基准侧重于界面操作而非认知工作流。ATC 通过提供超过 103,000 步的可验证推理轨迹,将每步推理与具体检索文档直接关联,实现了对智能体行为的细粒度审计。该数据集使研究者能够量化分析不同大语言模型在信息寻求任务中的行为差异,如探索广度、查询重构策略及面对冲突证据时的综合模式,为构建更透明、可信的智能体系统奠定了数据基础。
衍生相关工作
ATC 的发布催生了一系列重要的衍生研究工作。首先,基于 ATC 的轨迹格式,研究者可构建过程奖励模型,利用每步分歧分数训练对智能体中间步骤进行质量评估的奖励信号,从而改进强化学习训练。其次,ATC 中的 20,548 个监督训练对为链式推理微调提供了直接素材,相关工作展示了其在跨模型家族(Qwen、Gemma)上的通用有效性。此外,ATC 的语料感知种子选择策略被后续工作借鉴,用于合成数据的多样性控制与质量提升。该数据集还启发了面向法律、科学文献等专业领域的定制化 RAG 轨迹生成工具,推动了可验证智能体训练数据生态的扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作