five

nemotron-terminal-file_operations

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-file_operations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为 'nemotron-terminal-file_operations',是 'nvidia/Nemotron-Terminal-Corpus' 数据集的一个子集,专注于文件操作。数据集包含多个列,如 'conversations'、'agent'、'model'、'model_provider'、'date'、'task'、'episode'、'run_id'、'trial_name'、'enable_thinking'、'source'、'difficulty' 和 'original_source'。数据集按照 'adapters_{code,math,swe}' 和各种技能(如 'debugging'、'security' 等)进行分区。'difficulty' 列将数据分为 'easy'、'medium'、'mixed' 或 'na'。数据集采用 CC-BY-4.0 许可,适用于与问答相关的任务,特别是在代码和终端操作的上下文中。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总

nemotron-terminal-file_operations 数据集概述

数据集基本信息

  • 数据集名称: nemotron-terminal-file_operations
  • 许可协议: CC-BY-4.0
  • 主要任务类别: 问答
  • 语言: 英语
  • 标签: 代码、终端、智能体、轨迹、监督微调

数据来源与构成

  • 本数据集是 nvidia/Nemotron-Terminal-Corpus 数据集的一个按来源划分的子集,筛选条件为 source == "file_operations"
  • 分区方案:
    • adapters_{code,math,swe}: 数据行来自 dataset_adapters/{code,math,swe}.parquet 文件。
    • {skill} (例如 debugging, security): 数据行来自 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet 文件。

数据列说明

  • 继承自源数据集的列: conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking
  • 新增列:
    • source: 分区键,在本数据集中始终为 "file_operations"
    • difficulty: 难度等级,取值为 easy / medium / mixed / na。其中 na 用于 dataset_adapters/* 文件,这些文件没有难度标签。
    • original_source: 仅出现在 adapters_code 分区中,用于保留上游文件中原始的 source 列值(OpenCodeReasoningsynthetic)。

引用信息

如需引用,请使用以下 BibTeX 条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }

原始数据集许可

CC-BY-4.0。

搜集汇总
数据集介绍
main_image_url
构建方式
在终端智能体研究领域,nemotron-terminal-file_operations数据集作为Nemotron-Terminal-Corpus的子集,专注于文件操作任务。其构建过程通过精细的源数据筛选实现,依据原始数据中的source字段,严格选取所有与文件操作相关的记录。数据集进一步保留了原始难度分级,涵盖简单、中等及混合难度类别,同时整合了来自代码、数学和软件工程等特定领域的适配器数据,形成了结构清晰、任务聚焦的数据分区。
使用方法
研究人员可利用该数据集进行指令微调或强化学习,以提升语言模型在终端命令执行与文件管理方面的能力。典型的使用流程包括加载数据后,依据难度或来源字段进行子集划分,进而构建训练与评估任务。数据中的对话序列可直接用于监督式微调,模拟智能体与终端的多轮交互,而丰富的元数据则支持对模型行为模式、错误类型及任务泛化性能的深入分析。
背景与挑战
背景概述
在人工智能领域,终端智能体作为连接自然语言指令与系统操作的关键界面,其能力提升依赖于高质量的训练数据。Nemotron-Terminal-File_Operations数据集由NVIDIA研究团队于2026年创建,专注于文件操作任务的对话轨迹收集,旨在解决终端智能体在理解与执行复杂文件管理指令时的核心研究问题。该数据集作为Nemotron-Terminal-Corpus的子集,通过筛选特定来源的数据,为训练大型语言模型在终端环境下的推理与执行能力提供了专项支持,对推动自主智能体与代码生成交叉领域的发展具有显著影响力。
当前挑战
该数据集致力于解决终端智能体在文件操作任务中的领域挑战,包括对多步骤指令的语义解析、跨平台命令的泛化能力以及操作安全边界的准确判断。在构建过程中,研究人员面临数据来源异构性整合的难题,需将来自代码推理、数学求解等不同领域的适配数据进行统一标注与难度分级。同时,保持原始数据中对话轨迹的完整性与指令-执行对的逻辑一致性,亦是确保数据集质量的关键挑战。
常用场景
经典使用场景
在终端智能体与代码生成的研究领域,nemotron-terminal-file_operations数据集通过聚焦文件操作任务,为训练和评估语言模型在命令行环境中的交互能力提供了核心资源。该数据集收录了涵盖创建、移动、编辑和删除等文件系统操作的多样化对话轨迹,使得研究者能够系统性地探究模型在结构化终端指令下的理解与执行效能。其经典应用场景包括构建端到端的终端助手原型,通过监督微调优化模型对复杂文件管理流程的响应准确性,从而推动自动化脚本生成与系统管理任务的智能化发展。
解决学术问题
该数据集有效应对了自然语言处理与代码智能交叉领域中的关键挑战,特别是针对语言模型在真实终端环境中泛化能力不足的问题。通过提供高质量、多难度的文件操作交互数据,它支持了终端指令解析、程序化动作规划以及错误恢复机制等核心研究方向的实证分析。其意义在于建立了可复现的评估基准,促进了基于数据驱动的终端能力扩展方法的发展,为缩小模型在模拟环境与真实系统间性能差距提供了重要数据支撑。
实际应用
在实际部署层面,nemotron-terminal-file_operations数据集能够直接赋能智能运维助手与开发工具链的构建。基于该数据集训练的模型可集成至IDE插件或命令行界面,辅助开发者执行批量文件重命名、目录结构整理或配置档案管理等重复性操作,显著提升工作效率。同时,在自动化测试与持续集成流程中,此类模型能够解析自然语言需求并生成相应的终端命令序列,降低系统管理门槛,推动人机协作向更自然、高效的方向演进。
数据集最近研究
最新研究方向
在代码与终端智能体领域,nemotron-terminal-file_operations数据集聚焦于文件操作任务,为训练和评估大语言模型在终端环境下的执行能力提供了专门资源。前沿研究围绕如何利用此类轨迹数据提升智能体的推理与泛化性能,尤其在复杂文件系统交互中实现可靠的多步操作。热点事件包括基于合成任务与真实代码适配的混合数据工程方法,旨在解决数据稀缺与质量平衡问题,推动终端智能体向更高效、安全的自动化方向发展。该数据集的影响在于为终端能力扩展提供了标准化基准,对促进智能体在实际开发流程中的集成具有关键意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作