nemotron-terminal-model_training
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-model_training
下载链接
链接失效反馈官方服务:
资源简介:
nemotron-terminal-model_training 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集,专门筛选出 'source == "model_training"' 的数据。该数据集包含多种难度级别(easy、medium、mixed、na)的数据,主要来源于 'dataset_adapters' 和 'synthetic_tasks/skill_based' 两个路径。数据集中的列包括 'conversations'、'agent'、'model'、'model_provider'、'date'、'task'、'episode'、'run_id'、'trial_name'、'enable_thinking' 等,并额外添加了 'source'、'difficulty' 和 'original_source' 列。该数据集适用于代码、终端、代理和跟踪相关的问答任务,特别关注模型训练场景。数据集采用 CC-BY-4.0 许可。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: nemotron-terminal-model_training
- 许可证: CC-BY-4.0
- 主要任务类别: 问答
- 主要语言: 英语
- 标签: 代码、终端、智能体、轨迹、监督微调
数据来源与构成
- 本数据集是
nvidia/Nemotron-Terminal-Corpus数据集的一个按来源划分的子集,筛选条件为source == "model_training"。 - 划分方案:
adapters_{code,math,swe}: 数据行来自dataset_adapters/{code,math,swe}.parquet文件。{skill}(例如debugging,security): 数据行来自synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet文件。
数据列说明
- 继承自源数据集的列:
conversations,agent,model,model_provider,date,task,episode,run_id,trial_name,enable_thinking。 - 新增列:
source: 划分键,在本数据集中恒为"model_training"。difficulty: 难度等级,取值为easy/medium/mixed/na。其中na用于未携带难度标签的dataset_adapters/*文件。original_source: 仅存在于adapters_code划分中,用于保留上游文件中的原始source列值(OpenCodeReasoning或synthetic)。
引用信息
如需引用,请使用以下BibTeX条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
原始数据集信息
- 原始数据集许可证: CC-BY-4.0。
搜集汇总
数据集介绍

构建方式
在终端智能体研究领域,数据集的构建往往依赖于高质量的任务轨迹。nemotron-terminal-model_training数据集作为Nemotron-Terminal-Corpus的一个子集,其构建过程体现了精细化的数据工程策略。该子集通过筛选源数据中标记为“model_training”的条目而生成,并保留了原始数据中基于任务难度的分类标签,如“easy”、“medium”和“mixed”。其分区方案清晰,一部分源自特定领域的适配器文件,另一部分则来自基于技能分类的合成任务数据,这种结构化的构建方式确保了数据来源的可追溯性与任务类型的系统性覆盖。
特点
该数据集的核心特点在于其专注于模型训练场景下的终端交互轨迹,为研究智能体在代码执行与系统操作环境中的行为提供了专门语料。数据集中不仅包含了完整的对话序列,还保留了丰富的元数据,如智能体类型、模型提供方、任务标识以及独特的思维链启用标志。尤为重要的是,它引入了“difficulty”列以区分任务复杂度,并在部分分区中通过“original_source”列维护了上游数据的来源信息,这种多层次的信息标注为评估模型在不同挑战级别下的表现提供了结构化基础。
使用方法
对于旨在训练或评估终端操作智能体的研究者而言,该数据集提供了直接的应用路径。使用者可通过加载指定的parquet文件,访问其中结构化的对话轨迹与元数据,进而用于监督式微调或行为克隆等任务。数据中的“conversations”字段包含了用户指令与智能体响应的完整序列,结合“task”和“difficulty”等信息,能够方便地构建针对特定技能或难度级别的训练与测试集。在具体实践中,建议依据研究目标,参考其分区结构选择相应的数据子集,并遵循原数据集所采用的CC-BY-4.0许可协议进行使用与引用。
背景与挑战
背景概述
在人工智能与自然语言处理领域,终端智能体作为执行代码与系统操作的关键工具,其能力提升依赖于高质量的训练数据。Nemotron-Terminal-Model_Training数据集由NVIDIA研究团队于2026年创建,旨在通过大规模、结构化的终端交互轨迹数据,支持大型语言模型在终端环境下的指令理解与执行能力优化。该数据集聚焦于模型训练场景,涵盖了调试、安全、代码适配等多维技能任务,为核心研究问题——如何通过数据工程扩展LLM的终端能力——提供了实证基础,对推动自主智能体与代码生成领域的发展具有显著影响力。
当前挑战
该数据集致力于解决终端智能体在复杂环境下的任务执行与代码推理挑战,其核心问题在于如何让模型准确理解自然语言指令并生成有效的终端操作序列。构建过程中的挑战包括:多源数据的整合与标准化,需统一不同技能任务(如调试、数学、安全)的格式与难度分级;轨迹数据的质量过滤,确保交互序列的可靠性与教学价值;以及难度标签的保留与适配,以支持分层训练与评估策略。
常用场景
经典使用场景
在终端智能体研究领域,nemotron-terminal-model_training数据集为训练和评估代码生成与执行模型提供了核心支持。该数据集聚焦于模型训练场景,通过结构化对话轨迹和任务执行记录,模拟开发者在终端环境中进行代码调试、安全分析等复杂操作的过程。研究人员利用其丰富的交互序列,能够系统地探索智能体在命令行界面下的推理能力与适应性,从而推动自动化编程助手的技术演进。
衍生相关工作
该数据集的发布催生了多项终端智能体领域的创新研究。例如,部分工作基于其多难度任务划分,提出了渐进式课程学习框架以优化模型训练效率;另有研究利用其轨迹数据构建强化学习环境,探索智能体在长期任务中的探索-利用平衡策略。这些衍生工作进一步拓展了数据工程在提升大语言模型终端能力方面的理论边界与应用范式。
数据集最近研究
最新研究方向
在代码与终端智能体领域,nemotron-terminal-model_training数据集作为Nemotron-Terminal-Corpus的子集,聚焦于模型训练场景下的对话轨迹数据,为终端智能体的能力扩展提供了关键支持。当前研究前沿集中于利用此类结构化轨迹数据,通过监督微调技术提升智能体在复杂任务中的推理与执行效率,尤其在代码调试、安全分析等技能导向任务中展现出潜力。随着多模态智能体与自动化编程工具的兴起,该数据集通过标注难度等级与任务来源,助力探索数据工程对大型语言模型终端能力的缩放规律,相关研究正推动智能体在真实环境中的适应性与泛化性,为自动化软件开发与运维实践奠定数据基础。
以上内容由遇见数据集搜集并总结生成



