Terminal-Corpus

arXiv2026-02-25 更新2026-02-26 收录

下载链接：

https://huggingface.co/collections/nvidia/nemotron-terminal

下载链接

链接失效反馈

官方服务：

资源简介：

Terminal-Corpus是由英伟达团队构建的大规模开源终端任务数据集，旨在提升大语言模型在命令行环境中的交互能力。该数据集通过轻量级合成任务生成管道Terminal-Task-Gen构建，包含数据集适配和合成任务生成两阶段数据，覆盖数学推理、代码生成和软件工程修复等领域。其核心创新在于将现有基准转化为终端提示，并结合技能分类法生成针对性场景，最终通过Docker化环境交互产生解决方案轨迹。该数据集主要用于训练Nemotron-Terminal模型家族，显著提升了终端任务基准测试Terminal-Bench 2.0的性能表现，解决了终端代理训练数据稀缺和生成复杂度高的核心瓶颈。

Terminal-Corpus is a large-scale open-source terminal task dataset developed by the NVIDIA team, designed to improve the command-line interaction capabilities of large language models (LLMs). This dataset is built via the lightweight synthetic task generation pipeline Terminal-Task-Gen, which consists of two stages: dataset adaptation and synthetic task generation, covering domains such as mathematical reasoning, code generation, and software engineering repair. Its core innovation lies in converting existing benchmarks into terminal prompts, generating targeted scenarios in conjunction with a skill taxonomy, and ultimately generating solution trajectories through interactions within Dockerized environments. This dataset is primarily utilized for training the Nemotron-Terminal model family, significantly boosting the performance of the terminal task benchmark Terminal-Bench 2.0, and resolving the core bottlenecks of scarce training data and high generation complexity for terminal AI agents.

提供机构：

英伟达

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在大型语言模型终端能力训练领域，数据稀缺与质量参差不齐是核心瓶颈。Terminal-Corpus的构建采用了名为Terminal-Task-Gen的双轨制策略，旨在系统性地解决这一问题。该策略首先通过数据集适配器，将数学、代码和软件工程领域的高质量提示数据集，以统一模板转化为终端任务格式，实现了对现有优质数据资源的规模化利用。随后，通过合成任务生成模块，该框架进一步基于种子数据和精心设计的技能分类法，创造出新颖且具有针对性的终端操作场景。所有生成的任务均在Docker化环境中由教师模型（DeepSeek-V3.2）通过Terminus 2代理框架进行交互，生成解决方案轨迹，并经过去重、去污染和质量过滤等后处理步骤，最终形成用于监督微调的大规模数据集。

特点

该数据集的核心特点在于其构建的精细度与覆盖的广度。其数据来源具有互补性，数据集适配器确保了在数学推理、代码生成和软件工程修复等基础能力上的广泛覆盖，而合成任务生成则专注于终端操作特有的技能，如文件系统管理、进程调试和系统配置，实现了从通用问题解决到特定领域操作的精准过渡。数据集的设计强调任务的可验证性，每个任务都配备了程序化的测试套件，确保模型性能能够被客观评估。此外，通过使用预构建的领域特定Docker镜像，数据集在保持环境多样性的同时，极大地提升了生成效率和资源利用率，为大规模训练提供了可行性。

使用方法

该数据集主要用于大型语言模型的监督微调，以提升其在命令行界面中的自主问题解决能力。研究人员可以直接使用该数据集对预训练模型（如Qwen3系列）进行端到端的微调，训练模型理解终端指令、规划多步操作并与复杂环境进行交互。数据集的结构与Terminal-Bench基准保持一致，因此也适用于评估微调后模型在终端任务上的性能。在使用时，建议遵循论文中的训练配置，包括混合使用所有数据源进行单阶段训练，并采用适度的过滤策略以保留包含错误恢复模式的轨迹，这有助于模型学习更鲁棒的行为模式。数据集已开源，可通过提供的链接获取，便于社区复现研究并推动终端智能体领域的进一步发展。

背景与挑战

背景概述

随着大语言模型在软件工程应用领域的不断深入，终端交互能力已成为衡量模型实用性的关键指标。由NVIDIA研究团队于2026年主导创建的Terminal-Corpus数据集，旨在系统性地解决终端智能体训练数据稀缺与设计不透明的核心研究问题。该数据集通过创新的Terminal-Task-Gen框架生成，融合了数据集适配与合成任务生成双重策略，为训练具备复杂命令行操作能力的模型提供了大规模、高质量监督数据。其成果模型Nemotron-Terminal在Terminal-Bench 2.0基准测试中取得了显著性能跃升，证明了精细化数据工程对于释放模型终端潜能的决定性作用，为开源社区在该领域的研究奠定了重要基础。

当前挑战

Terminal-Corpus数据集致力于解决大语言模型在终端环境中的复杂任务执行问题，其核心挑战在于如何生成兼具广度与深度的训练数据以覆盖多样化的真实场景。具体而言，领域挑战体现在终端任务要求模型具备多步骤规划、环境交互与工具组合使用等综合能力，远超传统代码生成或数学推理的范畴。在构建过程中，研究团队面临两大瓶颈：其一是基础资源稀缺，包括多样化任务提示、依赖文件与预配置环境的匮乏；其二是轨迹收集的复杂性，真实人类交互难以捕获，而基于LLM智能体的合成生成则因需要为每个任务实例化新环境并进行多轮交互而成本高昂。此外，确保生成任务的可验证性、避免解决方案泄露以及维持任务的新颖性与多样性，均是数据构建过程中需要克服的关键技术障碍。

常用场景

经典使用场景

在大型语言模型终端能力研究领域，Terminal-Corpus数据集通过其系统化的数据工程框架，为训练终端智能体提供了核心支持。该数据集最经典的使用场景是作为监督微调（SFT）的训练资源，专门用于提升模型在命令行环境中的交互与问题解决能力。研究者利用其包含的多样化终端任务轨迹，能够有效训练模型执行从软件工程到系统管理的复杂工作流，例如代码编译、环境配置与安全审计等端到端操作，从而在Terminal-Bench等标准基准上实现性能的显著跃升。

解决学术问题

Terminal-Corpus数据集致力于解决终端智能体训练中数据稀缺与质量不透明的核心学术问题。通过引入Terminal-Task-Gen合成流水线，该数据集系统探索了数据适配与技能生成策略，揭示了高效数据混合、课程学习及长上下文训练的影响机制。其意义在于为社区提供了可复现的数据工程范例，证明高质量轨迹数据能够弥补模型参数规模的不足，使较小模型达到与前沿大模型相媲美的终端性能，从而推动终端能力研究的民主化与标准化。

衍生相关工作

围绕Terminal-Corpus数据集，衍生出一系列聚焦终端能力提升的经典研究工作。这些工作主要沿两条路径展开：一是改进智能体脚手架的设计，如Claude Code与Codex CLI等通过复杂交互框架增强终端性能；二是优化底层模型，例如采用适配器将现有数据集转换为终端格式，或利用多智能体框架进行原则性数据生成。Terminal-Corpus本身融合了数据集适配与合成生成的双重策略，为后续研究提供了可扩展的管道，激励了更多关于数据过滤、课程学习及技能组合的深入探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集