nemotron-terminal-software_engineering
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-software_engineering
下载链接
链接失效反馈官方服务:
资源简介:
nemotron-terminal-software_engineering 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集,专门筛选了 source 为 'software_engineering' 的数据。该数据集保留了原始数据中的 difficulty 列(easy / medium / mixed / na),并添加了 source 和 original_source 等额外列。数据分区包括 adapters_{code,math,swe} 和基于技能的分区(如 debugging, security 等)。数据集适用于问答任务,特别关注代码、终端、代理和跟踪等场景。数据集采用 CC-BY-4.0 许可,并提供了相关论文引用。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: nemotron-terminal-software_engineering
- 许可协议: CC-BY-4.0
- 主要任务类别: 问答
- 语言: 英语
- 标签: 代码、终端、代理、追踪、监督微调
数据来源与构成
- 本数据集是
nvidia/Nemotron-Terminal-Corpus数据集的一个按来源划分的子集,筛选条件为source == "software_engineering"。 - 划分方案如下:
- adapters_{code,math,swe}:数据行来自
dataset_adapters/{code,math,swe}.parquet文件。 - {skill}(例如
debugging,security等):数据行来自synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet文件。
- adapters_{code,math,swe}:数据行来自
数据列说明
- 包含源数据集的所有列:
conversations,agent,model,model_provider,date,task,episode,run_id,trial_name,enable_thinking。 - 额外包含的列:
source:划分键,在本数据集中始终为"software_engineering"。difficulty:难度等级,取值为easy/medium/mixed/na。其中na用于未携带难度标签的dataset_adapters/*文件。original_source:仅存在于adapters_code分区中,用于保留上游文件中原始的source列值(OpenCodeReasoning或synthetic)。
引用信息
如需引用,请使用以下BibTeX条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
原始许可
原始数据集许可证:CC-BY-4.0。
搜集汇总
数据集介绍

构建方式
在软件工程领域,为提升大型语言模型在终端环境下的交互能力,nemotron-terminal-software_engineering数据集应运而生。该数据集源自NVIDIA的Nemotron-Terminal-Corpus,通过筛选源标签为“software_engineering”的条目构建而成。其构建过程采用了分块策略,将原始数据按技能类别与适配器文件进行划分,例如调试与安全等技能任务被归类于synthetic_tasks路径,而适配器部分则保留了代码、数学等领域的原始来源信息。难度标签如简单、中等与混合得以保留,确保了数据层次结构的完整性,为模型训练提供了细致的数据支撑。
特点
该数据集的核心特点在于其专注于终端环境下的软件工程任务,涵盖了代码生成、调试、安全等多种技能场景。数据条目不仅包含对话内容、代理类型与模型信息,还新增了源分区与难度标签,使得数据具备清晰的元数据结构。适配器部分特别保留了原始来源字段,便于追溯数据出处。这种设计使得数据集既能支持通用终端代理训练,又能针对特定软件工程技能进行精细化研究,为评估模型在复杂终端交互中的表现提供了丰富素材。
使用方法
使用该数据集时,研究者可依据难度标签筛选数据,针对不同复杂度的软件工程任务开展训练与评估。数据集适用于问答类任务,尤其适合用于监督微调以提升语言模型在终端环境下的代码理解与操作能力。通过解析对话列中的交互轨迹,可以模拟真实终端会话,训练模型执行命令或解决编程问题。引用提供的文献可确保学术规范性,同时遵循CC-BY-4.0许可协议,保障数据使用的合法性与开放性。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,终端智能体能力的提升成为研究热点。Nemotron-Terminal-Software_Engineering数据集由NVIDIA研究团队于2026年创建,旨在通过大规模高质量对话轨迹数据,系统探索大型语言模型在终端环境下的软件工程任务执行能力。该数据集聚焦于代码调试、安全分析等核心技能,通过结构化标注与难度分级,为模型训练与评估提供了标准化基准,推动了自动化编程助手与智能开发工具的发展。
当前挑战
该数据集致力于解决终端环境下软件工程任务的自动化执行问题,其核心挑战在于如何精准建模复杂、多步骤的终端交互过程,并确保模型在真实场景中的泛化性与可靠性。数据构建过程中,研究者需克服多源异构数据的融合难题,包括合成轨迹与真实适配数据的对齐,以及技能分类与难度标注的一致性维护,这些因素共同影响了数据集的规模扩展与质量保证。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,nemotron-terminal-software_engineering数据集为训练和评估终端智能体提供了关键资源。其经典使用场景集中于通过对话式交互模拟真实软件开发任务,如代码调试、安全漏洞检测或系统配置,使模型能够学习在终端环境中执行复杂指令并生成相应操作序列。该数据集通过结构化对话轨迹与难度分级,支持研究者构建能够理解自然语言命令并转化为有效终端行动的智能代理系统。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在终端智能体的架构优化与评估框架构建上。例如,研究者利用其对话轨迹开发了多模态推理模型,增强了智能体在混合代码与自然语言环境中的表现;同时,基于难度分级的基准测试被广泛用于比较不同模型在软件工程任务上的鲁棒性。这些工作不仅扩展了数据集的学术影响力,还催生了新型评估协议与训练方法,为后续终端导向的人工智能研究奠定了方法论基础。
数据集最近研究
最新研究方向
在软件工程与智能体交互领域,nemotron-terminal-software_engineering数据集正推动终端智能体能力的前沿探索。该数据集聚焦代码生成、调试与安全等核心任务,通过细粒度的难度分级与对话轨迹记录,为构建具备复杂推理能力的终端助手提供了关键训练资源。当前研究热点集中于利用此类轨迹数据优化智能体的多步决策与上下文理解,以应对真实开发环境中的动态需求,同时探索数据工程策略如何有效提升大型语言模型在终端任务中的泛化性能与可靠性。这一方向不仅加速了自动化软件开发工具的演进,也为智能体在真实世界交互中的可解释性与适应性奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



