nemotron-terminal-data_processing
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-data_processing
下载链接
链接失效反馈官方服务:
资源简介:
nemotron-terminal-data_processing 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集,专门筛选了 'source == "data_processing"' 的数据。数据集包含多个分区,如 'adapters_{code,math,swe}' 和基于技能的分区(如 'debugging', 'security' 等)。数据列包括从源数据集继承的 'conversations', 'agent', 'model', 'model_provider', 'date', 'task', 'episode', 'run_id', 'trial_name', 'enable_thinking',以及新增的 'source'(分区键,此处为 'data_processing')、'difficulty'(难度等级:'easy' / 'medium' / 'mixed' / 'na')和 'original_source'(仅在 'adapters_code' 中存在,保留原始 'source' 值)。数据集适用于与代码、终端、代理、跟踪和 sft 相关的问答任务,语言为英语,采用 CC-BY-4.0 许可。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: nemotron-terminal-data_processing
- 来源: 此数据集是 nvidia/Nemotron-Terminal-Corpus 的一个按来源划分的子集。
- 筛选条件: 筛选出
source == "data_processing"的数据。 - 许可证: CC-BY-4.0
- 原始数据集许可证: CC-BY-4.0
任务与语言
- 主要任务类别: 问答
- 语言: 英语
- 标签: 代码、终端、智能体、轨迹、监督微调
数据内容与结构
- 配置: 默认配置 (
default),训练集数据文件为data.parquet。 - 划分方案:
- adapters_{code,math,swe}: 来自
dataset_adapters/{code,math,swe}.parquet的数据行。 - {skill} (例如
debugging,security): 来自synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet的数据行。
- adapters_{code,math,swe}: 来自
- 难度列:
difficulty列保留了原始的easy/medium/mixed划分。对于来自dataset_adapters/*文件的数据,该值为na(未标注难度)。
数据列
包含源数据集的所有列 (conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking),并额外添加了以下列:
source: 划分键,在此数据集中始终为"data_processing"。difficulty: 难度等级,取值为easy/medium/mixed/na。original_source: 仅出现在adapters_code划分中,用于保留上游文件中原始的source列值(OpenCodeReasoning或synthetic)。
引用
如需引用,请使用以下 BibTeX 条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
搜集汇总
数据集介绍

构建方式
在数据工程领域,nemotron-terminal-data_processing数据集作为NVIDIA Nemotron-Terminal-Corpus的子集,专门聚焦于数据处理任务。其构建过程通过源数据筛选机制实现,从原始语料库中提取所有标记为“data_processing”的条目,并保留了原始难度分级标签,涵盖简单、中等及混合难度级别。数据来源分为两部分:一部分来自适配器文件,涉及代码、数学和软件工程领域;另一部分则基于技能导向的合成任务,如调试与安全等,通过结构化分区确保了数据在特定应用场景下的针对性与完整性。
特点
该数据集的核心特点在于其高度专业化的任务导向设计,专注于终端环境下的数据处理能力训练。它完整保留了原始对话序列、代理信息及任务元数据,并新增了源分区与难度标签字段,使得数据追溯与分级应用更为便捷。特别地,适配器代码分区还保留了原始来源标识,为跨领域研究提供了清晰的溯源路径。这种精细的字段结构不仅支持多维度分析,也为构建高效终端智能体奠定了扎实的数据基础。
使用方法
使用该数据集时,研究人员可将其直接应用于问答与代码生成任务的监督微调流程。通过加载标准Parquet格式文件,用户能够依据难度标签进行分层抽样或全量训练,以适配不同复杂度的模型优化需求。在终端智能体开发中,数据集中的对话轨迹与任务描述可作为输入序列,驱动模型学习数据处理指令的执行逻辑。此外,结合原始分区信息,可进一步开展领域适应性研究或跨技能迁移实验,充分发挥其在提升大型语言模型终端操作能力方面的价值。
背景与挑战
背景概述
在人工智能与自然语言处理领域,终端智能体作为执行复杂计算任务的关键工具,其能力提升依赖于高质量的训练数据。Nemotron-Terminal-Data_Processing数据集由NVIDIA研究团队于2026年创建,旨在通过数据工程方法扩展大型语言模型在终端环境下的处理能力。该数据集聚焦于数据处理的特定场景,涵盖了调试、安全等多种技能任务,为模型在代码生成、问题解答等任务上的性能优化提供了结构化支持。其构建基于合成任务与适配器技术,反映了当前人机交互与自动化编程的前沿研究方向,对推动智能终端代理的发展具有重要影响。
当前挑战
该数据集致力于解决终端智能体在数据处理任务中的泛化与精确性问题,其核心挑战在于如何确保模型能够准确理解并执行多样化的终端指令,同时适应不同难度级别的任务需求。在构建过程中,研究人员面临数据来源异构性的挑战,需整合来自合成任务与外部适配器的多源数据,并保持原始难度标签的一致性。此外,数据过滤与分区策略的设计需平衡任务覆盖范围与质量保证,以克服噪声干扰并提升训练效率,这要求精细的工程化处理来维持数据集的可靠性与实用性。
常用场景
经典使用场景
在人工智能与自然语言处理领域,终端交互任务正日益成为研究热点。nemotron-terminal-data_processing数据集聚焦于数据处理场景,其经典使用场景在于训练和评估大型语言模型在终端环境下的指令执行与代码生成能力。该数据集通过模拟真实的数据处理任务,如数据清洗、转换与分析,为模型提供了丰富的上下文对话轨迹,使其能够学习如何理解用户需求并生成相应的终端命令或脚本,从而提升模型在复杂任务中的自动化水平。
解决学术问题
该数据集有效解决了学术研究中关于终端智能体能力扩展的关键问题。传统上,语言模型在终端任务中常面临指令理解不精确、代码生成可靠性不足等挑战。nemotron-terminal-data_processing通过提供结构化、多难度的数据处理对话记录,支持研究者探索模型在特定技能领域的泛化性能,如调试与安全处理,进而推动数据工程方法在提升模型终端能力方面的理论进展,为缩放大型语言模型的实践应用奠定基础。
衍生相关工作
基于nemotron-terminal-data_processing数据集,衍生了一系列经典研究工作。例如,相关学者利用其分区结构探索了技能导向的模型微调策略,特别是在代码适配与数学推理领域的应用。这些工作进一步扩展了终端智能体的能力边界,推动了如OpenCodeReasoning等上游项目的集成,为终端任务的数据工程与模型缩放提供了实证基础,促进了人工智能在自动化运维领域的持续创新。
以上内容由遇见数据集搜集并总结生成



