nemotron-terminal-security
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-security
下载链接
链接失效反馈官方服务:
资源简介:
nemotron-terminal-security 数据集是 nvidia/Nemotron-Terminal-Corpus 数据集的一个子集,经过筛选仅包含 'source == "security"' 的数据。该数据集保留了原始数据集中的 'easy' / 'medium' / 'mixed' 难度划分(对于 'dataset_adapters/*' 文件,难度标记为 'na')。数据集的分区方案包括来自 'dataset_adapters/{code,math,swe}.parquet' 的 'adapters_{code,math,swe}' 分区,以及来自 'synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet' 的技能分区(如 'debugging', 'security' 等)。数据集列包括源数据集中的列(如 'conversations', 'agent', 'model' 等)以及新增的列:'source'(分区键,此处为 'security')、'difficulty'(难度标记)和 'original_source'(仅在 'adapters_code' 中存在,保留原始 'source' 列的值)。该数据集适用于问答任务,特别是与代码、终端、代理等相关的场景。数据集遵循 CC-BY-4.0 许可。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总
nemotron-terminal-security 数据集概述
数据集来源
- 本数据集是
nvidia/Nemotron-Terminal-Corpus数据集的子集。 - 通过筛选源数据集中的
source字段为"security"的条目而创建。
数据内容与结构
- 任务类别:问答。
- 主要语言:英语。
- 数据标签:代码、终端、智能体、轨迹、监督微调。
- 数据文件:
data.parquet文件,包含训练集。
分区方案
数据集根据源数据的不同部分进行分区,具体如下:
- adapters_{code,math,swe}:数据行来自源数据集的
dataset_adapters/{code,math,swe}.parquet文件。 - {skill}(例如
debugging,security等):数据行来自源数据集的synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet文件。
数据列说明
保留了源数据集的所有列,包括:
conversationsagentmodelmodel_providerdatetaskepisoderun_idtrial_nameenable_thinking
并额外增加了以下列:
source:分区键,在本数据集中始终为"security"。difficulty:难度等级,取值为easy、medium、mixed或na。该列保留了源数据集的难度划分(na用于dataset_adapters/*文件,这些文件没有难度标签)。original_source:仅出现在adapters_code分区中,用于保留上游文件中原始的source列值(OpenCodeReasoning或synthetic)。
许可信息
- 本数据集遵循 CC-BY-4.0 许可证。
- 源数据集同样遵循 CC-BY-4.0 许可证。
引用信息
如需引用,请使用以下 BibTeX 条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
搜集汇总
数据集介绍

构建方式
在终端智能体研究领域,nemotron-terminal-security数据集作为Nemotron-Terminal-Corpus的一个关键子集,其构建过程体现了精细化的数据工程策略。该数据集通过严格的筛选机制,从庞大的原始语料库中专门提取出与安全(security)相关的交互轨迹。其数据来源主要分为两部分:一部分源自适配器文件(dataset_adapters),涵盖了代码、数学和软件工程等跨领域的安全任务,这些数据未标注难度等级;另一部分则来自基于技能的任务生成(synthetic_tasks/skill_based),按照预设的简单、中等和混合难度层级进行组织,并聚焦于安全技能类别。这种分区构建方式确保了数据在主题上的高度纯净性与结构上的层次分明。
特点
该数据集的核心特征在于其专注于终端环境下的安全相关任务,为研究智能体在代码与系统安全层面的推理能力提供了专门资源。数据集完整保留了原始对话轨迹(conversations)、智能体类型(agent)、模型信息及任务元数据,并额外引入了来源(source)与难度(difficulty)两个关键维度。难度标签的保留——包括简单、中等、混合及不适用——使得研究者能够针对不同复杂度的安全场景进行模型训练与评估。部分数据还包含原始来源标识(original_source),增强了数据的可追溯性,为分析不同数据源的贡献提供了便利。
使用方法
该数据集适用于训练和评估面向终端操作的问答与指令跟随模型,尤其在提升智能体安全意识和操作合规性方面具有重要价值。使用者可直接加载数据文件,利用其中的多轮对话序列(conversations)进行监督式微调(SFT)。通过难度列(difficulty),可以灵活地构建不同挑战级别的训练集或测试集,以系统评估模型在从基础到复杂的安全任务上的表现。结合智能体类型和任务元数据,研究者还能深入分析不同策略或模型在安全敏感环境下的行为差异。数据遵循CC-BY-4.0许可,确保了开放的学术使用与共享。
背景与挑战
背景概述
在人工智能与终端交互技术深度融合的背景下,nemotron-terminal-security数据集应运而生,作为NVIDIA研究团队于2026年发布的Nemotron-Terminal-Corpus的关键子集,专注于终端安全领域。该数据集由Renjie Pi、Grace Lam等学者构建,旨在通过高质量的人机对话轨迹数据,探索大型语言模型在终端安全任务中的能力扩展与优化。其核心研究问题聚焦于如何通过数据工程方法,有效提升模型在安全相关终端操作中的理解、推理与执行性能,为智能体在复杂安全环境下的自主决策提供数据支撑,对推动终端自动化与安全智能体的发展具有显著影响力。
当前挑战
该数据集致力于解决终端安全领域的智能问答与任务执行挑战,具体包括模型对安全漏洞识别、权限管理、恶意代码检测等复杂场景的精准响应难题。在构建过程中,研究人员面临数据质量与多样性的平衡挑战,需从多源合成任务中筛选并整合安全相关对话轨迹,同时保持难度分级(如easy、medium、mixed)的连贯性;此外,数据标注的稀疏性以及终端操作环境的动态模拟,也为确保数据真实性与泛化能力带来了技术障碍。
常用场景
经典使用场景
在终端安全领域,nemotron-terminal-security数据集为大型语言模型在命令行环境下的安全操作能力评估提供了基准。该数据集聚焦于安全相关任务,通过模拟真实终端交互场景,支持模型在漏洞检测、权限管理和恶意代码识别等安全技能上的监督微调。研究者利用其结构化的对话轨迹,能够系统性地训练模型理解并执行复杂的安全指令,从而提升模型在自动化安全运维中的可靠性与准确性。
实际应用
在实际部署中,nemotron-terminal-security数据集能够赋能企业级安全运维自动化系统。基于该数据集训练的模型可集成于安全运营中心,辅助分析师执行日志审计、异常命令检测或自动化漏洞修复脚本生成等任务。其提供的终端交互轨迹有助于开发智能安全代理,在降低人为操作风险的同时,提升对潜在安全威胁的响应速度与处理一致性,为IT基础设施的持续监控与防护提供智能化支持。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在终端智能体的安全能力扩展与评估框架构建上。例如,研究者借鉴其安全任务划分与难度标注体系,开发了针对权限边界验证的基准测试;亦有工作基于其对话轨迹数据,提出了增强模型对抗性指令抵抗力的微调方法。这些研究进一步丰富了终端智能体在安全敏感场景下的能力图谱,并促进了安全导向的代码生成与解释性评估工具的发展。
以上内容由遇见数据集搜集并总结生成



