TerminalTraj

github2026-02-11 更新2026-02-12 收录

下载链接：

https://github.com/multimodal-art-projection/TerminalTraj

下载链接

链接失效反馈

官方服务：

资源简介：

TerminalTraj是一个大规模终端代理轨迹数据集，通过从真实世界的GitHub仓库中生成Docker对齐的终端代理轨迹，并包含实例特定的可执行验证。该数据集包含50,733个经过验证的终端轨迹，覆盖八个专业领域，并支持持续、可扩展的数据合成。

TerminalTraj is a large-scale terminal agent trajectory dataset. It is constructed by generating Docker-aligned terminal agent trajectories from real-world GitHub repositories, and incorporates instance-specific executable validation. This dataset contains 50,733 validated terminal trajectories, covers eight professional domains, and supports continuous and scalable data synthesis.

创建时间：

2026-02-03

原始信息汇总

TerminalTraj 数据集概述

数据集基本信息

数据集名称: TerminalTraj
发布机构/作者: m-a-p (Multimodal Art Projection)
关联论文: Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments
论文链接: https://arxiv.org/abs/2602.01244
数据集访问地址: https://huggingface.co/datasets/m-a-p/TerminalTraj
模型访问地址: https://huggingface.co/m-a-p/TerminalTraj-32B

数据集简介

TerminalTraj 是一个用于训练终端智能体模型的大规模、高质量终端轨迹数据集。该数据集旨在解决构建可执行且可验证的终端交互数据所面临的挑战，其核心是通过一个可扩展的流水线，从真实的 Docker 化环境中生成智能体轨迹。

核心方法与构建

核心挑战: 数据构建需满足可执行性（每个实例需要特定Docker环境）和可验证性（异构任务输出难以统一验证）。
解决方案: 提出了 TerminalTraj 流水线：
1. 环境构建: 通过基于模型的仓库质量评分，筛选高质量 GitHub 仓库，自动化构建了 32,325 个 Docker 镜像，涵盖八种编程语言。
2. 实例生成: 生成与 Docker 环境对齐的任务实例，涵盖八个专业领域，涉及真实世界的工具和依赖。
3. 轨迹合成与验证: 合成智能体轨迹，并通过任务特定的可执行验证器（受 TerminalBench 启发）进行过滤验证。
数据规模: 最终生成了 50,733 条经过验证的终端轨迹。

数据特点与用途

领域覆盖: 涵盖八个不同的专业领域。
环境真实性: 数据基于真实的 Docker 化环境生成，确保了交互的可行性和真实性。
核心用途: 用于训练面向终端任务的智能体模型，以提升其在复杂、长程交互任务上的性能。

实验效果

使用该数据集训练的模型（基于 Qwen2.5-Coder 主干）在 TerminalBench (TB) 基准测试上取得了显著的性能提升：

在 TB 1.0 上最高提升 20%。
在 TB 2.0 上最高提升 10%。
其中，TerminalTraj-32B 模型在参数量小于 100B 的模型中表现优异，在 TB 1.0 上达到 35.30%，在 TB 2.0 上达到 22.00%，并展现出改进的测试时缩放能力。

数据获取与使用

数据集已发布在 Hugging Face Datasets 平台，可通过以下代码加载： python from datasets import load_dataset ds = load_dataset("m-a-p/TerminalTraj")

未来计划

计划在近期额外发布 5,000 个配备基于 Docker 环境的实例。

搜集汇总

数据集介绍

构建方式

在终端智能体模型训练领域，高质量轨迹数据的构建始终面临执行环境多样性与验证标准统一性的双重挑战。TerminalTraj数据集通过设计一套可扩展的流水线应对这些难题，其构建过程始于对真实世界GitHub仓库的智能筛选，采用基于模型的质量评分机制，自动化构建了跨越八种编程语言的32,325个Docker镜像，为各类任务提供了隔离且可复现的执行环境。随后，研究团队在这些环境中精心策划了涵盖八个专业领域的任务实例，并利用任务特定的可执行验证器对生成的智能体交互轨迹进行过滤与验证，最终产出50,733条经过严格核实的终端轨迹，确保了数据的可靠性与实用性。

使用方法

该数据集主要服务于终端智能体模型的训练与评估。研究人员可通过Hugging Face平台便捷地获取数据，使用`datasets`库中的`load_dataset`函数加载“m-a-p/TerminalTraj”即可开始使用。这些高质量的轨迹数据可直接用于监督微调或作为强化学习的专家示范，以提升模型在真实终端环境中理解指令、执行命令并完成复杂任务的能力。基于此数据集训练的模型，如TerminalTraj-32B，已在TerminalBench基准测试中展现出显著的性能提升与改进的测试时缩放行为，验证了其在推动终端智能体研究方面的实用价值。

背景与挑战

背景概述

在人工智能领域，面向终端任务的智能体模型训练，亟需大规模、高质量且能反映真实长程交互的终端轨迹数据。然而，此类数据的构建长期面临环境依赖复杂与验证标准不一的瓶颈。TerminalTraj数据集由研究团队于2026年提出，旨在通过从真实GitHub仓库中系统化生成与Docker化环境对齐的终端智能体轨迹，以应对这一核心研究问题。该数据集涵盖了八种编程语言及多个专业领域，包含超过32,000个Docker镜像与50,733条已验证轨迹，为终端智能体的训练与评估提供了坚实的数据基础，显著提升了模型在TerminalBench等基准测试上的性能表现。

当前挑战

构建终端智能体轨迹数据集所面临的首要挑战在于领域问题的复杂性：终端任务通常涉及跨领域的长期交互，且输出形式高度异构，难以设计统一、自动化的验证机制，这直接影响了数据的可靠性与模型训练的泛化能力。在数据构建过程中，挑战同样突出：一方面，每个任务实例需要配置独立且可执行的Docker环境，确保环境与代码的精确对齐；另一方面，必须开发任务特定的可执行验证器，以自动化方式确保生成轨迹的正确性，这两项要求共同构成了大规模、高质量轨迹数据合成的关键障碍。

常用场景

经典使用场景

在终端智能体研究领域，TerminalTraj数据集为训练基于命令行的自主代理模型提供了核心支持。该数据集通过构建大规模、可执行的Docker化环境，模拟了真实世界中的长时程终端交互任务，覆盖了八种编程语言和多个专业领域。研究者利用这些经过验证的轨迹数据，能够高效地训练模型执行复杂的终端操作，如代码编译、系统配置和软件部署，从而推动终端智能体在复杂环境下的决策与执行能力。

解决学术问题

TerminalTraj数据集有效应对了终端智能体训练中数据稀缺与质量验证的两大挑战。传统方法难以生成兼具可执行性和可验证性的大规模轨迹，而该数据集通过自动化管道筛选高质量代码仓库、构建Docker对齐的任务实例，并辅以任务特定的可执行验证器，确保了数据的真实性与可靠性。这为学术界研究智能体在异构环境中的泛化能力、长时程规划以及代码执行验证提供了坚实基础，显著提升了模型在终端基准测试上的性能。

实际应用

在实际应用层面，TerminalTraj数据集支撑的模型能够广泛应用于自动化运维、开发工具链集成及教育辅助系统。例如，在DevOps场景中，智能体可依据学习到的轨迹自动完成服务器配置、容器化部署等任务；在编程教育中，它能够模拟真实开发环境，指导学生进行命令行操作与调试。这些应用不仅提升了工作效率，还降低了人工操作错误的风险，体现了终端智能体技术向产业落地的关键价值。

数据集最近研究