TaskTrove

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/open-thoughts/TaskTrove

下载链接

链接失效反馈

官方服务：

资源简介：

TaskTrove 是一个开源的代理任务数据集集合，由 OpenThoughts-Agent 团队发布。它包含了来自 100 多个任务源的超过 75 万个独特任务，包括流行的强化学习和监督微调训练目标，如 SWE-Smith、R2EGym 和 SWE-Re-Bench。TaskTrove 是 AgentTrove 的任务补充，后者中的代理轨迹是通过使用 Harbor 框架在这些任务数据集上运行模型生成的。数据集中的任务分为两类：带有验证器的（用于 RL 训练和评估）和不带验证器的（用于 SFT/数据生成）。TaskTrove 的数据集以原始 HuggingFace 仓库的结构保存，每个源数据集存储为一个子目录，保留了原始的 Parquet 分片、README 和其他文件。

TaskTrove is an open-source collection of proxy task datasets, released by the OpenThoughts-Agent team. It contains over 750,000 unique tasks from more than 100 task sources, including popular reinforcement learning and supervised fine-tuning training objectives such as SWE-Smith, R2EGym, and SWE-Re-Bench. TaskTrove serves as a task complement to AgentTrove, where agent trajectories are generated by running models on these task datasets using the Harbor framework. The tasks in the dataset are divided into two categories: those with validators (for RL training and evaluation) and those without validators (for SFT/data generation). The TaskTrove dataset is stored in the original HuggingFace repository structure, with each source dataset stored as a subdirectory, preserving the original Parquet shards, README, and other files.

创建时间：

2026-04-27

原始信息汇总

TaskTrove 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成（text-generation）
语言: 英语（en）
标签: agent, code, agentic-tasks, harbor, reinforcement-learning, swe-bench
数据规模: 超过 100K 但少于 1M（100K<n<1M）

数据集描述

TaskTrove 是由 OpenThoughts-Agent 团队发布的开源智能体任务数据集集合。它包含 超过 750,000 个独特任务，来自 超过 100 个任务来源，其中包括流行的强化学习（RL）和监督微调（SFT）训练目标，如：

TaskTrove 是 AgentTrove 的任务补充数据集——AgentTrove 中的智能体轨迹是通过运行模型针对这些任务数据集并使用 Harbor 框架生成的。

仓库结构

每个源数据集作为子目录存储，命名为 org__name/，其中原始 HuggingFace 仓库 org/name 的 / 被替换为 __。原始 Parquet 分片、README 和其他文件保持原样保存，未进行任何提取或转换。

示例：

DCAgent/swesmith-sandboxes-with_tests → DCAgent__swesmith-sandboxes-with_tests/
DCAgent/r2egym-patched-full-oracle → DCAgent__r2egym-patched-full-oracle/
DCAgent/swe_rebench_patched → DCAgent__swe_rebench_patched/

任务格式

所有任务均为有效的 Harbor 任务二进制文件。Harbor 是 OpenThoughts-Agent 使用的开源智能体评估和数据生成框架。

任务分为两类：

1. 带验证器（用于强化学习训练和评估）

包含 verifier 字段，可在每个回合结束时对智能体轨迹进行评分
兼容 Harbor 的 RL/评估流程
示例：swesmith-sandboxes-with_tests、r2egym-patched-full-oracle、swe_rebench_patched_oracle

2. 不带验证器（用于监督微调/数据生成）

定义任务环境和指令，但依赖外部评分或教师模型判断
示例：bash_textbook_tasks、nl2bash-verified、selfinstruct-naive-sandboxes-*

与 AgentTrove 的关系

TaskTrove 中的任务数据集是 AgentTrove 中智能体轨迹的直接来源。生成轨迹数据集时，教师模型（如 GLM-4.7、Kimi K2.0 Thinking、GPT 5.1 Nano）作为 Harbor 智能体运行在任务二进制文件上，为每个任务生成一条轨迹。AgentTrove 汇总了来自 219 次此类运行的约 170 万条轨迹。

使用方式

1. 从二进制文件中提取任务

使用 OpenThoughts-Agent 中的提取工具将任务二进制文件解包到包含单个任务文件的目录中： bash python -m scripts.datagen.extract_tasks_from_parquet --parquet DCAgent/swe_rebench_patched --output_dir $SCRATCH/tasks/swe_rebench_patched --on_exist overwrite

--parquet 参数接受本地路径或 HuggingFace 数据集仓库 ID。--output_dir 将包含每个任务一个 JSON 文件。

2. 生成新的智能体轨迹

任务提取后，启动 Harbor 数据生成作业，使用任何由 vLLM 提供服务的模型生成轨迹： bash python3 -m hpc.launch --job_type datagen --trace_harbor_config "./hpc/harbor_yaml/datagen/ctx32k_verified.yaml" --datagen_config kimi_k2_5_vllm_serve_torch_h200.yaml --tasks_input_path "$SCRATCH/tasks/swe_rebench_patched" --trace_target_repo DCAgent2/Kimi-2.5-swe_rebench-sandboxes-maxeps-32k --time_limit 47:59:00 --num_nodes 1 --gpus_per_node 8 --trace-n-concurrent 20

关键参数说明：

--trace_harbor_config — Harbor 智能体配置（上下文长度、摘要、工具解析器等）
--datagen_config — vLLM 服务配置（模型、张量并行、集群硬件）
--tasks_input_path — 提取的任务文件目录
--trace_target_repo — 输出轨迹将上传到的 HuggingFace 仓库
--trace-n-concurrent — 同时运行的 Harbor 回合数

引用

若在研究中使用 TaskTrove，请引用： bibtex @misc{openthoughts-agent, author = {Team, OpenThoughts-Agent}, month = Dec, title = {{OpenThoughts-Agent}}, howpublished = {https://www.open-thoughts.ai/blog/agent}, year = {2025} }

搜集汇总

数据集介绍

构建方式

TaskTrove由OpenThoughts-Agent团队精心构建，汇聚了来自超过100个任务源的逾75万条独特任务数据。其构建过程秉持忠实的镜像原则，直接对原始HuggingFace数据集进行无损复制，保留原有的Parquet分片、README文档等完整结构，未施加任何抽取或转换操作。每个源数据集以“组织名__数据集名”的格式存储为独立子目录，确保了来源的可追溯性与数据的原始纯净度。该数据集是AgentTrove轨迹数据集的配套任务集合，旨在为强化学习与监督微调提供标准化的任务基准。

特点

TaskTrove的核心特色在于其任务格式的统一性与功能性分层。所有任务均遵循Harbor框架的任务二进制规范，并依据是否包含验证器划分为两大类别：含验证器的任务（如SWE-Smith、R2EGym）专为强化学习训练与评估设计，能够在每个回合结束时自动评分智能体轨迹，支持全自动的RL流程；无验证器的任务（如bash_textbook_tasks）则适用于监督微调与数据生成，依赖外部教师模型或人工判定。这种双轨并行的架构兼顾了自动化训练与灵活微调的双重需求。

使用方法

研究人员可通过OpenThoughts-Agent仓库提供的工具包高效使用TaskTrove。首先，利用extract_tasks_from_parquet脚本将任务二进制文件解包为独立的JSON任务文件，该脚本支持本地路径或HuggingFace数据集ID作为输入。随后，基于Harbor框架的数据生成管线，配置vLLM服务参数与智能体设置，即可调用任意教师模型生成新的智能体轨迹。生成的轨迹可自动上传至指定HuggingFace仓库，通过调整n-concurrent等参数可灵活控制并发任务数，适配从单机调试到大规模集群部署的多种场景。

背景与挑战

背景概述

TaskTrobe是一个由OpenThoughts-Agent团队于2025年12月发布的开源智能体任务数据集集合，旨在为强化学习与监督微调提供高质量的智能体训练素材。该数据集汇聚了来自超过100个任务源的75万余条独特任务，涵盖SWE-Smith、R2EGym和SWE-Re-Bench等广泛使用的训练基准。作为AgentTrobe轨迹数据集的任务基石，TaskTrobe通过Harbor框架驱动模型生成智能体轨迹，在智能体系统的数据驱动发展中扮演着关键角色，推动了从任务定义到智能体训练的全流程范式革新。

当前挑战

智能体系统的核心挑战在于如何构建兼具多样性与可验证性的任务环境，以支持大规模强化学习训练。TaskTrobe通过整合来自多个来源的任务，初步解决了任务多样性的问题，但仍面临两大挑战：其一，在领域问题层面，现有任务依赖沙盒执行与教师模型评判，缺乏统一且可扩展的自动化验证机制，限制了智能体在复杂真实环境中的泛化能力；其二，在构建过程中，从多个异构源抽提并标准化任务格式、确保上下兼容性并保留原始语义的工程复杂度极高，而750K量级的任务规模进一步放大了数据治理与质量控制的难度。

常用场景

经典使用场景

TaskTrove 是面向语言智能体（Agent）的强化学习与监督微调训练数据集集合，其经典使用场景涵盖智能体在代码仓库、命令行环境、网页交互等复杂动态环境中的任务学习与评估。该数据集汇聚了超过75万个来自100余个来源的独特任务，为研究者提供统一、标准化的任务基准。通过将任务封装为 Harbor 框架兼容的二进制格式，TaskTrove 支持两种核心训练范式：含验证器的任务适用于强化学习中的奖励信号设计，不含验证器的任务则适配于监督式微调。这使得它成为训练能够自主完成软件工程修复、数据库操作、命令行解析等复杂指令的智能体模型的首选数据底座。

衍生相关工作

TaskTrove 的发布催生了多项重要的衍生研究工作，其中最直接的是与其配套的 AgentTrove 轨迹数据集，后者包含了超过170万条由多种大语言模型（如 GLM-4.7、Kimi K2.0 Thinking）在 TaskTrove 任务上生成的完整智能体执行轨迹，为训练序列级的智能体行为模型提供了珍贵素材。此外，基于 TaskTrove 的任务格式，研究者进一步开发了 Harbor 评估框架的多任务扩展版本，支持在统一环境中对比不同智能体架构（如 ReAct、Plan-and-Solve）的表现。还有工作利用 TaskTrove 中的验证器数据研究奖励模型在代码生成与缺陷修复任务中的最优设计策略，推动了智能体强化学习的理论进展。

数据集最近研究