TaskTrove
收藏TaskTrove 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成(text-generation)
- 语言: 英语(en)
- 标签: agent, code, agentic-tasks, harbor, reinforcement-learning, swe-bench
- 数据规模: 超过 100K 但少于 1M(100K<n<1M)
数据集描述
TaskTrove 是由 OpenThoughts-Agent 团队发布的开源智能体任务数据集集合。它包含 超过 750,000 个独特任务,来自 超过 100 个任务来源,其中包括流行的强化学习(RL)和监督微调(SFT)训练目标,如:
TaskTrove 是 AgentTrove 的任务补充数据集——AgentTrove 中的智能体轨迹是通过运行模型针对这些任务数据集并使用 Harbor 框架生成的。
仓库结构
每个源数据集作为子目录存储,命名为 org__name/,其中原始 HuggingFace 仓库 org/name 的 / 被替换为 __。原始 Parquet 分片、README 和其他文件保持原样保存,未进行任何提取或转换。
示例:
DCAgent/swesmith-sandboxes-with_tests→DCAgent__swesmith-sandboxes-with_tests/DCAgent/r2egym-patched-full-oracle→DCAgent__r2egym-patched-full-oracle/DCAgent/swe_rebench_patched→DCAgent__swe_rebench_patched/
任务格式
所有任务均为有效的 Harbor 任务二进制文件。Harbor 是 OpenThoughts-Agent 使用的开源智能体评估和数据生成框架。
任务分为两类:
1. 带验证器(用于强化学习训练和评估)
- 包含
verifier字段,可在每个回合结束时对智能体轨迹进行评分 - 兼容 Harbor 的 RL/评估流程
- 示例:
swesmith-sandboxes-with_tests、r2egym-patched-full-oracle、swe_rebench_patched_oracle
2. 不带验证器(用于监督微调/数据生成)
- 定义任务环境和指令,但依赖外部评分或教师模型判断
- 示例:
bash_textbook_tasks、nl2bash-verified、selfinstruct-naive-sandboxes-*
与 AgentTrove 的关系
TaskTrove 中的任务数据集是 AgentTrove 中智能体轨迹的直接来源。生成轨迹数据集时,教师模型(如 GLM-4.7、Kimi K2.0 Thinking、GPT 5.1 Nano)作为 Harbor 智能体运行在任务二进制文件上,为每个任务生成一条轨迹。AgentTrove 汇总了来自 219 次此类运行的约 170 万条轨迹。
使用方式
1. 从二进制文件中提取任务
使用 OpenThoughts-Agent 中的提取工具将任务二进制文件解包到包含单个任务文件的目录中: bash python -m scripts.datagen.extract_tasks_from_parquet --parquet DCAgent/swe_rebench_patched --output_dir $SCRATCH/tasks/swe_rebench_patched --on_exist overwrite
--parquet 参数接受本地路径或 HuggingFace 数据集仓库 ID。--output_dir 将包含每个任务一个 JSON 文件。
2. 生成新的智能体轨迹
任务提取后,启动 Harbor 数据生成作业,使用任何由 vLLM 提供服务的模型生成轨迹: bash python3 -m hpc.launch --job_type datagen --trace_harbor_config "./hpc/harbor_yaml/datagen/ctx32k_verified.yaml" --datagen_config kimi_k2_5_vllm_serve_torch_h200.yaml --tasks_input_path "$SCRATCH/tasks/swe_rebench_patched" --trace_target_repo DCAgent2/Kimi-2.5-swe_rebench-sandboxes-maxeps-32k --time_limit 47:59:00 --num_nodes 1 --gpus_per_node 8 --trace-n-concurrent 20
关键参数说明:
--trace_harbor_config— Harbor 智能体配置(上下文长度、摘要、工具解析器等)--datagen_config— vLLM 服务配置(模型、张量并行、集群硬件)--tasks_input_path— 提取的任务文件目录--trace_target_repo— 输出轨迹将上传到的 HuggingFace 仓库--trace-n-concurrent— 同时运行的 Harbor 回合数
引用
若在研究中使用 TaskTrove,请引用: bibtex @misc{openthoughts-agent, author = {Team, OpenThoughts-Agent}, month = Dec, title = {{OpenThoughts-Agent}}, howpublished = {https://www.open-thoughts.ai/blog/agent}, year = {2025} }




