five

nemotron-terminal-system_administration

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-system_administration
下载链接
链接失效反馈
官方服务:
资源简介:
nemotron-terminal-system_administration 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集,专门筛选出与系统管理相关的数据。该数据集包含多种难度级别的任务(easy、medium、mixed 或 na),并保留了原始数据集的所有列(如 conversations、agent、model 等),同时新增了 source、difficulty 和 original_source 列以标识数据来源和难度。数据集适用于问答任务,特别是与代码、终端操作和系统管理相关的场景。数据来源于合成任务和适配器文件,分区方案包括 adapters_{code,math,swe} 和基于技能的分区(如 debugging、security 等)。数据集采用 CC-BY-4.0 许可。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总

nemotron-terminal-system_administration 数据集概述

数据集来源

许可协议

  • 许可证:CC-BY-4.0。

任务类别与语言

  • 任务类别:问答。
  • 语言:英语。

标签

  • 代码、终端、代理、轨迹、监督微调。

数据划分方案

  • adapters_{code,math,swe}:数据行来自 dataset_adapters/{code,math,swe}.parquet
  • {skill}(例如 debuggingsecurity 等):数据行来自 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet

数据列说明

  • 包含源数据集的所有列:conversationsagentmodelmodel_providerdatetaskepisoderun_idtrial_nameenable_thinking
  • 新增列:
    • source:分区键,在本数据集中始终为 "system_administration"
    • difficulty:难度等级,取值为 easymediummixedna(对于 dataset_adapters/* 文件,因其未携带难度标签)。
    • original_source:仅出现在 adapters_code 分区中,用于保留上游文件中原始的 source 列值(OpenCodeReasoningsynthetic)。

引用信息

  • 标题:On Data Engineering for Scaling LLM Terminal Capabilities
  • 作者:Renjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping
  • 年份:2026
  • 电子版存档:arXiv:2602.21193
  • 主要分类:cs.CL
  • 原文链接:https://arxiv.org/abs/2602.21193
搜集汇总
数据集介绍
main_image_url
构建方式
在终端智能体研究领域,nemotron-terminal-system_administration数据集作为Nemotron-Terminal-Corpus的一个子集,专注于系统管理任务。其构建过程通过精细的筛选机制,从原始语料中提取所有标注为“system_administration”来源的数据条目,并保留了原始难度分级标签,包括“easy”、“medium”、“mixed”以及未标注的“na”类别。数据组织采用分区策略,分别整合了来自适配器文件与基于技能的分类文件,确保了任务来源的清晰可追溯性。
特点
该数据集的核心特征体现在其高度结构化的任务分类与详尽的元数据标注。每一数据样本不仅包含完整的对话序列,还附带了代理类型、模型提供方、任务描述及执行环境等丰富上下文信息。特别引入的“source”与“difficulty”字段,使得研究者能够依据任务来源与复杂度进行灵活的数据切片与分析。这种设计使得数据集尤其适用于评估与训练面向复杂系统管理场景的终端智能体。
使用方法
使用本数据集时,研究者可依据“difficulty”字段筛选不同复杂度的系统管理任务,用于监督微调或强化学习训练。数据集中的“conversations”列提供了完整的交互轨迹,可直接用于模拟终端指令执行与响应生成的训练流程。此外,通过整合“agent”与“model”等元数据,能够深入分析不同智能体架构在系统管理任务上的行为差异,为终端操作自动化的算法优化提供实证基础。
背景与挑战
背景概述
在人工智能与自然语言处理领域,终端操作与系统管理任务的自动化是提升人机交互效率的关键方向。Nemotron-Terminal-System_Administration数据集由NVIDIA研究团队于2026年创建,旨在通过大规模、高质量的对话轨迹数据,训练和评估大型语言模型在终端环境下的系统管理能力。该数据集聚焦于代码生成、故障调试、安全配置等核心研究问题,其构建基于多源合成与适配策略,为智能体在真实世界命令行界面中的推理与执行提供了重要基准,推动了终端智能代理技术的发展。
当前挑战
该数据集致力于解决终端系统管理场景下的复杂问题,其挑战体现在多个层面。在领域问题方面,终端任务通常涉及多步推理、动态环境交互与长程依赖,要求模型具备精确的指令理解、错误恢复与安全约束遵循能力。构建过程中,数据合成需平衡真实性与多样性,难度分级(如easy、medium、mixed)的标注需确保任务复杂度与模型评估的对应性,同时跨源数据(如adapters_code、synthetic_tasks)的整合与一致性维护也带来了工程上的挑战。
常用场景
经典使用场景
在系统管理与终端操作领域,nemotron-terminal-system_administration数据集为训练和评估智能代理在命令行环境下的执行能力提供了关键资源。该数据集通过模拟真实系统管理任务,如调试、安全配置等,构建了丰富的对话轨迹,使模型能够学习如何解析用户指令、生成准确的终端命令序列,并适应不同难度级别的操作场景。这一经典使用场景直接支撑了终端智能体的行为建模与优化研究。
解决学术问题
该数据集有效应对了智能体在复杂终端交互中面临的指令理解与执行一致性问题。通过提供结构化的系统管理任务轨迹,它帮助研究者探索如何提升大型语言模型在代码生成、错误诊断及多步操作规划方面的能力。其意义在于为数据驱动的终端能力扩展建立了基准,推动了在受限环境下的可解释性与可靠性研究,对强化学习与监督微调方法的融合具有重要影响。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在终端智能体的能力扩展与评估框架构建上。例如,研究如何利用合成任务与技能导向的数据分区来优化代理的泛化性能,或探索多模态交互在系统管理中的整合。相关研究还涉及对数据工程策略的深入分析,如数据过滤与难度分级如何影响模型学习曲线,这些工作共同推动了面向终端操作的智能体研究生态发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作