AgentTrove

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/open-thoughts/AgentTrove

下载链接

链接失效反馈

官方服务：

资源简介：

AgentTrove是目前最大的开源智能体交互轨迹数据集，由OpenThoughts-Agent团队发布。该数据集包含来自219个源数据集的1,696,847条记录，涵盖代码修复、Shell脚本编写、数学问题求解、竞技编程和通用计算机任务等多个领域。其规模是之前最大的开源智能体轨迹数据集Nemotron Terminal Corpus（43万条）的4倍。所有轨迹均采用terminus-2交互格式（类似ShareGPT的对话布局），每条记录包含完整的智能体轨迹，包括工具调用、环境响应和最终推理。数据集使用开源Harbor框架生成，每条记录包含messages（对话轮次列表）、original_source（任务来源标识）、original_teacher（生成轨迹的教师模型）、reward（成功/失败结果）等核心字段，以及来自源数据集的其他元数据。该数据集适用于智能体行为分析、强化学习和代码生成等任务的研究。

AgentTrove is currently the largest open-source agent interaction trajectory dataset, released by the OpenThoughts-Agent team. The dataset contains 1,696,847 records from 219 source datasets, covering multiple fields such as code fixing, Shell script writing, mathematical problem solving, competitive programming, and general computer tasks. Its scale is four times that of the previously largest open-source agent trajectory dataset, Nemotron Terminal Corpus (430,000 records). All trajectories adopt the terminus-2 interaction format (similar to ShareGPTs dialogue layout), with each record containing complete agent trajectories, including tool calls, environment responses, and final reasoning. The dataset is generated using the open-source Harbor framework, with each record containing core fields such as messages (list of dialogue turns), original_source (task source identifier), original_teacher (teacher model generating the trajectory), reward (success/failure result), and other metadata from the source datasets. This dataset is suitable for research in agent behavior analysis, reinforcement learning, and code generation tasks.

创建时间：

2026-04-27

原始信息汇总

AgentTrove 数据集概述

AgentTrove 是目前最大规模的开源代理交互轨迹（agentic interaction traces）数据集，由 OpenThoughts-Agent 团队发布。

总规模：包含 1,696,847 行（约 170 万条）数据。
数据来源：整合自 219 个源数据集，覆盖代码修复、Shell 脚本、数学问题求解、竞赛编程和通用计算机使用等任务。
规模对比：数据量是此前最大的开源代理轨迹数据集 Nemotron Terminal Corpus（43 万行）的 4 倍。

数据格式

所有轨迹采用 terminus-2 harness 格式，即 ShareGPT 风格的对话布局。每一行代表一个完整的代理运行轨迹，包含工具调用、环境响应和最终推理过程。

所有轨迹均使用开源的 Harbor 代理评估与数据生成框架生成。

数据模式（Schema）

每一行包含以下字段。注意，不同源数据集的模式可能不同，缺失的列以 null 填充。

字段名	类型	描述
`messages`	`list[dict]`	完整代理轨迹，由多个对话轮次组成。每个轮次为一个字典，包含 `role`（`"user"`、`"assistant"` 或 `"tool"`）和 `content`（字符串）。遵循 Harbor 使用的 terminus-2 / ShareGPT 格式。
`original_source`	`string`	标识该行数据来源的任务标签（例如 `"swesmith"`、`"codeforces"`、`"nl2bash"`、`"r2egym"`、`"exp_rpt"`、`"exp_tas"`）。
`original_teacher`	`string`	标识生成该轨迹的教师模型（例如 `"GLM-4.7"`、`"GLM-4.6"`、`"GPT 5.1 Nano"`、`"Kimi K2.0 Thinking"`、`"MiniMax M2.0"`、`"Qwen3-8B"`）。
`reward`	`float`	代理轨迹的通过/失败结果，通常为 `1.0`（成功）或 `0.0`（失败）。大部分源数据集包含此字段。
`task_id`	`string`	任务实例的唯一标识符。格式因源数据集而异。
(其他列)	可变	来自源数据集的其他元数据列（例如 `trajectory_id`、`episode`、`model`、`sandbox_id`）。

源数据集

AgentTrove 通过拼接 OpenThoughts-Agent 项目过程中生成的训练数据集构建而成。完整来源列表请参见 README 文件。

许可协议

许可证：Apache-2.0
任务类别：文本生成（text-generation）
语言：英语（English）

引用

若在研究中使用了 AgentTrove，请引用：

bibtex @misc{openthoughts-agent, author = {Team, OpenThoughts-Agent}, month = Dec, title = {{OpenThoughts-Agent}}, howpublished = {https://www.open-thoughts.ai/blog/agent}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在智能体研究领域，大规模、多样化的交互轨迹数据是推动模型能力提升的关键资源。AgentTrove由OpenThoughts-Agent团队构建，是目前开源领域规模最大的智能体交互轨迹集合，包含1,696,847条记录，数据量是此前最大同类数据集Nemotron Terminal Corpus的4倍。该数据集通过整合OpenThoughts-Agent项目过程中生成的训练数据而成，涵盖了来自219个源数据集的异构轨迹，这些轨迹均由开源Harbor智能体评估与数据生成框架产生，并统一采用terminus-2格式（一种ShareGPT风格的对话布局）进行标准化存储，确保每一条轨迹均包含完整的工具调用、环境响应与最终推理过程。

使用方法

研究者可通过HuggingFace平台直接加载AgentTrove数据集进行使用。数据以Parquet格式存储，每条记录包含完整的对话消息列表（messages）、源任务标签（original_source）、教师模型标识（original_teacher）以及奖励值（reward）等字段，兼容主流深度学习框架。该数据集特别适用于智能体行为克隆、强化学习训练、轨迹质量分析及多任务表示学习等研究方向。用户可依据original_source字段筛选特定领域数据进行微调，或利用reward字段过滤成功/失败轨迹以构建偏好数据集，亦可将不同教师模型生成的轨迹组合，探索模型蒸馏与数据融合策略。

背景与挑战

背景概述

AgentTrove是迄今为止规模最大的开源智能体交互轨迹数据集，由OpenThoughts-Agent团队于2025年12月发布。该数据集汇集了来自219个源数据集的1,696,847条轨迹记录，覆盖代码修复、Shell脚本编写、数学问题求解、竞赛编程以及通用计算机操作等多种任务领域。作为此前最大开源智能体轨迹数据集Nemotron Terminal Corpus的四倍规模，AgentTrove为智能体强化学习与推理研究提供了前所未有的数据基础。所有轨迹均采用terminus-2格式存储，并通过开源框架Harbor生成，确保了数据结构的标准化与可复现性。该数据集的发布填补了大规模、多源智能体训练数据的空白，有望推动从代码生成到通用任务自动化等众多人工智能应用的性能跃升。

当前挑战

AgentTrove致力于解决智能体领域训练数据稀缺与多样性不足的核心难题。在领域问题层面，智能体系统在执行复杂多步任务时，往往需要海量高质量的交互轨迹进行有效学习，而此前开源数据集规模有限且任务类型单一，难以支撑通用智能体的训练需求。在构建过程中，面临的首要挑战是异构源数据的统一格式化——来自219个不同数据集的轨迹具有各异的元数据架构，需通过填充空值等方式进行标准化对齐。此外，多教师模型（涵盖GLM-4.6、GPT-5.1 Nano、Kimi K2.0等十余种）的轨迹质量参差不齐，需要设计可靠的奖励信号（如成功/失败二值标注）来筛选有效样本。数据规模达到170万行级别，也对存储、传输与后续处理的效率提出了严峻考验。

常用场景

经典使用场景

在智能体学习与推理领域，AgentTrove作为迄今最大规模的开源智能体交互轨迹数据集，其最经典的使用场景莫过于对大型语言模型进行基于强化学习的智能体能力训练与微调。该数据集囊括了代码修复、Shell脚本编写、数学推理、竞赛编程及通用计算机操作等多元任务中近170万条完整的智能体轨迹，每条轨迹均以统一的terminus-2格式记录了工具调用、环境反馈及最终推理过程，为研究者提供了丰富的监督信号，使得模型能够在真实或模拟的交互环境中学习如何规划行动、调用工具并从错误中恢复，从而显著提升其在复杂任务中的自主决策能力。

解决学术问题

AgentTrove着力解决了学术领域中智能体轨迹数据稀缺与多样性不足这一核心瓶颈。此前，由于智能体交互数据获取成本高昂且格式各异，研究者难以开展大规模、跨任务的智能体学习研究。该数据集通过汇集来自219个源数据集、涵盖多种教师模型生成的轨迹，并统一数据格式，为学界提供了可复现、标准化的训练基底。其意义在于，它首次使研究者能够在十万至百万级别的轨迹上系统性地探索智能体泛化能力、策略迁移以及奖励建模等关键问题，深刻推动了从任务特定智能体到通用智能体的范式转变。

实际应用

在现实世界的工业级应用中，AgentTrove所蕴含的丰富轨迹知识正被逐步用于构建更为可靠的自动化编程助手与运维智能体。例如，软件工程团队可借助该数据集训练模型以自动修复代码缺陷、撰写单元测试或解析命令行日志，从而将工程师从繁琐的重复劳动中解放出来。此外，在客户服务与桌面自动化场景中，基于AgentTrove微调的模型能够理解并执行多步操作指令，如操作数据库或管理文件系统，其展现出的工具使用与错误恢复能力大幅提升了任务完成的鲁棒性与效率。

数据集最近研究