nemotron-terminal-model_training

Name: nemotron-terminal-model_training
Creator: LAION eV
Published: 2026-04-13 19:13:44
License: 暂无描述

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-terminal-model_training

下载链接

链接失效反馈

官方服务：

资源简介：

nemotron-terminal-model_training 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集，专门筛选出 'source == "model_training"' 的数据。该数据集包含多种难度级别（easy、medium、mixed、na）的数据，主要来源于 'dataset_adapters' 和 'synthetic_tasks/skill_based' 两个路径。数据集中的列包括 'conversations'、'agent'、'model'、'model_provider'、'date'、'task'、'episode'、'run_id'、'trial_name'、'enable_thinking' 等，并额外添加了 'source'、'difficulty' 和 'original_source' 列。该数据集适用于代码、终端、代理和跟踪相关的问答任务，特别关注模型训练场景。数据集采用 CC-BY-4.0 许可。

提供机构：

LAION eV

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称: nemotron-terminal-model_training
许可证: CC-BY-4.0
主要任务类别: 问答
主要语言: 英语
标签: 代码、终端、智能体、轨迹、监督微调

数据来源与构成

本数据集是 nvidia/Nemotron-Terminal-Corpus 数据集的一个按来源划分的子集，筛选条件为 source == "model_training"。
划分方案:
- adapters_{code,math,swe}: 数据行来自 dataset_adapters/{code,math,swe}.parquet 文件。
- {skill} (例如 debugging, security): 数据行来自 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet 文件。

数据列说明

继承自源数据集的列: conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking。
新增列:
- source: 划分键，在本数据集中恒为 "model_training"。
- difficulty: 难度等级，取值为 easy / medium / mixed / na。其中 na 用于未携带难度标签的 dataset_adapters/* 文件。
- original_source: 仅存在于 adapters_code 划分中，用于保留上游文件中的原始 source 列值（OpenCodeReasoning 或 synthetic）。

引用信息

如需引用，请使用以下BibTeX条目： bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }

原始数据集信息

原始数据集许可证: CC-BY-4.0。

搜集汇总

数据集介绍

构建方式

在终端智能体研究领域，数据集的构建往往依赖于高质量的任务轨迹。nemotron-terminal-model_training数据集作为Nemotron-Terminal-Corpus的一个子集，其构建过程体现了精细化的数据工程策略。该子集通过筛选源数据中标记为“model_training”的条目而生成，并保留了原始数据中基于任务难度的分类标签，如“easy”、“medium”和“mixed”。其分区方案清晰，一部分源自特定领域的适配器文件，另一部分则来自基于技能分类的合成任务数据，这种结构化的构建方式确保了数据来源的可追溯性与任务类型的系统性覆盖。

特点

该数据集的核心特点在于其专注于模型训练场景下的终端交互轨迹，为研究智能体在代码执行与系统操作环境中的行为提供了专门语料。数据集中不仅包含了完整的对话序列，还保留了丰富的元数据，如智能体类型、模型提供方、任务标识以及独特的思维链启用标志。尤为重要的是，它引入了“difficulty”列以区分任务复杂度，并在部分分区中通过“original_source”列维护了上游数据的来源信息，这种多层次的信息标注为评估模型在不同挑战级别下的表现提供了结构化基础。

使用方法

对于旨在训练或评估终端操作智能体的研究者而言，该数据集提供了直接的应用路径。使用者可通过加载指定的parquet文件，访问其中结构化的对话轨迹与元数据，进而用于监督式微调或行为克隆等任务。数据中的“conversations”字段包含了用户指令与智能体响应的完整序列，结合“task”和“difficulty”等信息，能够方便地构建针对特定技能或难度级别的训练与测试集。在具体实践中，建议依据研究目标，参考其分区结构选择相应的数据子集，并遵循原数据集所采用的CC-BY-4.0许可协议进行使用与引用。

背景与挑战

背景概述

在人工智能与自然语言处理领域，终端智能体作为执行代码与系统操作的关键工具，其能力提升依赖于高质量的训练数据。Nemotron-Terminal-Model_Training数据集由NVIDIA研究团队于2026年创建，旨在通过大规模、结构化的终端交互轨迹数据，支持大型语言模型在终端环境下的指令理解与执行能力优化。该数据集聚焦于模型训练场景，涵盖了调试、安全、代码适配等多维技能任务，为核心研究问题——如何通过数据工程扩展LLM的终端能力——提供了实证基础，对推动自主智能体与代码生成领域的发展具有显著影响力。

当前挑战

该数据集致力于解决终端智能体在复杂环境下的任务执行与代码推理挑战，其核心问题在于如何让模型准确理解自然语言指令并生成有效的终端操作序列。构建过程中的挑战包括：多源数据的整合与标准化，需统一不同技能任务（如调试、数学、安全）的格式与难度分级；轨迹数据的质量过滤，确保交互序列的可靠性与教学价值；以及难度标签的保留与适配，以支持分层训练与评估策略。

常用场景

经典使用场景

在终端智能体研究领域，nemotron-terminal-model_training数据集为训练和评估代码生成与执行模型提供了核心支持。该数据集聚焦于模型训练场景，通过结构化对话轨迹和任务执行记录，模拟开发者在终端环境中进行代码调试、安全分析等复杂操作的过程。研究人员利用其丰富的交互序列，能够系统地探索智能体在命令行界面下的推理能力与适应性，从而推动自动化编程助手的技术演进。

衍生相关工作

该数据集的发布催生了多项终端智能体领域的创新研究。例如，部分工作基于其多难度任务划分，提出了渐进式课程学习框架以优化模型训练效率；另有研究利用其轨迹数据构建强化学习环境，探索智能体在长期任务中的探索-利用平衡策略。这些衍生工作进一步拓展了数据工程在提升大语言模型终端能力方面的理论边界与应用范式。

数据集最近研究