five

nemotron-terminal-dependency_management

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-dependency_management
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是 'nvidia/Nemotron-Terminal-Corpus' 的一个子集,专门过滤出 'source == "dependency_management"' 的数据。数据集保留了原始数据中的难度等级('easy'、'medium'、'mixed' 或 'na')。数据分区方案包括来自 'dataset_adapters/{code,math,swe}.parquet' 的 'adapters_{code,math,swe}' 数据,以及来自 'synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet' 的技能型数据(如 'debugging'、'security' 等)。数据集列包括源数据集的列(如 'conversations'、'agent'、'model' 等)以及新增的 'source'(分区键)、'difficulty'(难度等级)和 'original_source'(仅在 'adapters_code' 中存在,保留原始 'source' 列的值)。数据集适用于问答任务,主要涉及代码、终端、代理和跟踪等场景。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总

数据集概述:nemotron-terminal-dependency_management

基本信息

  • 数据集名称:nemotron-terminal-dependency_management
  • 许可证:CC-BY-4.0
  • 任务类别:问答
  • 主要语言:英语
  • 标签:代码、终端、智能体、轨迹、监督微调

数据来源与构成

本数据集是 nvidia/Nemotron-Terminal-Corpus 的一个按来源划分的子集,筛选条件为 source == "dependency_management"

划分方案

  • adapters_{code,math,swe}:数据行来源于 dataset_adapters/{code,math,swe}.parquet 文件。
  • {skill}(例如 debugging, security 等):数据行来源于 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet 文件。

数据列说明

包含源数据集的所有列(conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking),并额外增加以下列:

  • source:划分键,在本数据集中恒为 "dependency_management"
  • difficulty:难度等级,取值为 easy / medium / mixed / na。其中 na 用于 dataset_adapters/* 文件,因为这些文件原本没有难度标签。
  • original_source:仅出现在 adapters_code 分区中,用于保留上游文件中原始的 source 列值(OpenCodeReasoningsynthetic)。

引用信息

如需引用,请使用以下BibTeX格式: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }

原始数据集信息

  • 原始数据集名称:nvidia/Nemotron-Terminal-Corpus
  • 原始数据集地址:https://huggingface.co/datasets/nvidia/Nemotron-Terminal-Corpus
  • 原始数据集许可证:CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在终端智能体研究领域,nemotron-terminal-dependency_management数据集作为NVIDIA Nemotron-Terminal-Corpus的一个精细化子集,专注于依赖管理任务。其构建过程通过严格的源数据筛选机制实现,从原始语料库中提取所有标记为“dependency_management”来源的数据行。该数据集保留了原始的结构化分区方案,包括从特定技能文件夹(如debugging、security)中整合的难度分级数据,以及从适配器文件导入的未标记难度数据,从而形成了一个层次分明、来源清晰的专项语料集合。
使用方法
研究人员可利用该数据集进行终端智能体在依赖管理场景下的能力评估与模型训练。典型的使用路径包括加载数据后,依据“difficulty”列进行分层抽样或对比实验,以探究模型在不同复杂度任务上的表现差异。对话历史与执行轨迹字段可直接用于监督式微调或行为克隆训练,而丰富的元数据则为错误分析、轨迹可视化或数据分布研究提供了结构化基础。通过引用提供的学术文献,可进一步将实验结果置于更广阔的终端智能体研究背景之中。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,终端智能体(Terminal Agent)的研究旨在开发能够理解并执行自然语言指令、自动化完成复杂终端操作的大型语言模型。Nemotron-Terminal-Dependency_Management数据集作为NVIDIA Nemotron-Terminal-Corpus的一个子集,专注于依赖管理(dependency_management)这一关键技能,由NVIDIA研究团队于2026年发布,核心研究问题在于如何通过高质量、结构化的交互轨迹数据,系统性地提升语言模型在终端环境中处理软件依赖配置、更新与解决冲突的实际能力。该数据集的构建基于大规模合成任务与适配器数据,其发布为终端智能体的能力评估与模型训练提供了标准化基准,显著推动了自动化编程助手与智能运维工具的发展。
当前挑战
该数据集致力于解决终端智能体在依赖管理这一具体软件工程任务中的挑战,包括模型需准确解析模糊的自然语言需求、理解跨平台终端命令语义、以及处理依赖关系中的复杂约束与版本冲突。在构建过程中,研究人员面临多重困难:如何设计覆盖从易到难(easy/medium/mixed)的真实场景对话轨迹,确保数据多样性与任务代表性;如何从异构源(如合成任务与适配器数据)中整合并清洗数据,保持格式一致与标注质量;以及如何在遵循CC-BY-4.0许可下平衡数据规模与知识产权合规性,这些挑战共同塑造了数据集的最终形态与应用边界。
常用场景
经典使用场景
在终端智能体与代码依赖管理的研究领域中,nemotron-terminal-dependency_management数据集被广泛应用于训练和评估大型语言模型在终端环境下的指令执行能力。该数据集聚焦于依赖管理任务,涵盖了从简单到复杂的操作场景,为模型提供了丰富的交互轨迹,使其能够学习如何解析用户指令、调用终端命令并管理软件依赖关系。通过模拟真实的终端会话,研究者能够系统地探索模型在自动化代码环境配置与维护方面的潜力。
解决学术问题
该数据集有效解决了终端智能体研究中数据稀缺与任务泛化性不足的学术挑战。通过提供结构化的依赖管理对话记录,它支持模型学习跨不同难度级别的终端操作模式,促进了指令理解、上下文跟踪与错误处理等核心能力的提升。其意义在于为终端场景下的数据工程与模型扩展提供了标准化基准,推动了智能体在代码环境自动化管理领域的理论进展与实证验证。
实际应用
在实际应用层面,该数据集为开发智能终端助手与自动化运维工具提供了关键训练资源。基于数据集的模型能够辅助开发者执行依赖安装、版本更新与环境配置等重复性任务,从而提升软件开发的效率与可靠性。在持续集成与部署流水线中,此类智能体可自动检测并修复依赖冲突,减少人工干预,推动DevOps流程向更高程度的自主化演进。
数据集最近研究
最新研究方向
在软件工程与人工智能交叉领域,终端依赖管理数据集正推动智能体行为建模的前沿探索。研究者聚焦于利用该数据训练大型语言模型,以提升其在复杂代码环境中的自主问题解决能力,特别是在依赖解析、版本冲突检测及自动化修复等任务上。当前热点围绕多模态智能体框架的构建,结合终端轨迹与代码上下文,实现更精准的指令执行与错误诊断。这一方向不仅加速了开发流程的自动化进程,也为软件维护的智能化转型提供了关键数据支撑,具有显著的工程实践价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作