nemotron-terminal-data_science

Name: nemotron-terminal-data_science
Creator: LAION eV
Published: 2026-04-13 19:13:03
License: 暂无描述

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-terminal-data_science

下载链接

链接失效反馈

官方服务：

资源简介：

nemotron-terminal-data_science 数据集是 nvidia/Nemotron-Terminal-Corpus 的一个子集，专门针对数据科学领域的数据进行了过滤。数据集保留了原始数据中的难度级别（easy/medium/mixed/na），并添加了来源和难度等额外列。数据分区包括 adapters_{code,math,swe} 和基于技能的分区（如 debugging、security 等）。数据集适用于问答任务，特别是与代码、终端和代理相关的场景。数据集的语言为英语，许可证为 CC-BY-4.0。

提供机构：

LAION eV

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称: nemotron-terminal-data_science
来源: 为数据集 nvidia/Nemotron-Terminal-Corpus 的一个按来源划分的子集。
筛选条件: 仅包含 source 字段为 "data_science" 的数据。
许可证: CC-BY-4.0
主要任务类别: 问答
语言: 英语
标签: 代码、终端、代理、轨迹、监督微调

数据内容与结构

核心列: 包含源数据集的所有列（conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking）。
新增列:
- source: 分区键，此数据集中恒为 "data_science"。
- difficulty: 难度等级，取值为 easy / medium / mixed / na。其中 na 用于未标注难度的 dataset_adapters/* 文件。
- original_source: 仅存在于 adapters_code 分区，用于保留上游文件中的原始 source 列值（OpenCodeReasoning 或 synthetic）。
数据文件: data.parquet（训练集）。

分区方案

数据集根据来源文件进行分区，具体对应关系如下：

adapters_{code,math,swe}: 数据行来自 dataset_adapters/{code,math,swe}.parquet 文件。
{skill} (例如 debugging, security): 数据行来自 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet 文件。

引用信息

如需引用，请使用以下BibTeX条目： bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }

搜集汇总

数据集介绍

构建方式

在数据科学领域，自动化终端操作能力的提升依赖于高质量的训练数据。nemotron-terminal-data_science数据集作为Nemotron-Terminal-Corpus的子集，通过精细筛选机制构建而成。其核心方法是从原始语料库中提取所有标注为“data_science”来源的样本，并保留原有的难度分级标签，包括easy、medium、mixed及未标注的na类别。数据划分遵循结构化原则，将适配器文件与基于技能的任务文件分别归类，确保了数据来源的透明性与可追溯性。

特点

该数据集在终端智能体训练领域展现出鲜明的专业特性。其内容全面覆盖数据科学相关的终端操作轨迹，包括代码调试、安全处理等核心技能，并附带完整的元数据信息，如代理模型、任务类型及运行标识。独特的难度分级体系为模型能力评估提供了细粒度基准，而适配器部分则保留了原始来源标注，增强了数据的可解释性。这种结构化的特征设计使得数据集既能支持通用终端任务训练，又能满足特定技能领域的深入研究需求。

使用方法

针对终端操作智能体的开发与评估，该数据集提供了系统化的应用路径。研究人员可直接加载parquet格式的训练文件，利用conversations列中的对话序列进行监督式微调。通过难度分级字段，可构建渐进式训练流程或分层性能测试。适配器数据可用于跨领域迁移学习研究，而完整的元数据链支持实验复现与结果溯源。在具体实践中，建议结合原始论文提出的数据工程框架，将终端轨迹与推理过程相结合，以优化智能体的决策能力与操作准确性。

背景与挑战

背景概述

随着大型语言模型在代码生成与终端交互领域的深入应用，对高质量、结构化的训练数据需求日益增长。Nemotron-Terminal-Data_Science数据集由NVIDIA研究团队于2026年创建，旨在通过数据工程方法扩展语言模型的终端操作能力，特别是聚焦于数据科学场景下的任务执行与问题解决。该数据集作为Nemotron-Terminal-Corpus的子集，专门筛选并整合了数据科学相关的对话轨迹，涵盖了调试、安全等多种技能维度，为研究智能体在复杂终端环境中的推理与执行提供了关键资源。其构建基于合成任务与适配器技术，体现了从基础代码生成向具身交互范式转变的研究趋势，对推动自动化数据科学流程与智能体系统发展具有显著影响力。

当前挑战

在数据科学终端任务领域，智能体需理解多轮对话上下文、解析模糊的自然语言指令，并生成准确可执行的终端命令序列，这要求模型具备跨模态推理与错误恢复能力。数据构建过程中，挑战主要源于合成数据的真实性与多样性平衡：如何模拟真实数据科学工作流中的复杂依赖与环境变化，同时确保生成轨迹的语义一致性与技能覆盖度；此外，原始数据源的异构格式整合与难度标签的统一标注也增加了工程复杂度，需设计精细的过滤与分区策略以维持数据质量与结构清晰度。

常用场景

经典使用场景

在数据科学领域，终端操作是数据工程师和科学家日常工作的核心环节，涉及数据清洗、模型训练及结果可视化等复杂流程。nemotron-terminal-data_science数据集通过记录真实终端交互轨迹，为训练智能代理提供了丰富的监督学习素材。该数据集特别适用于构建能够理解自然语言指令并执行相应终端命令的对话系统，从而模拟人类在数据科学任务中的操作行为，提升自动化工具的实用性和准确性。

衍生相关工作

基于该数据集衍生的经典工作主要集中在终端能力扩展与代理优化方向。例如，研究团队利用其训练了能够处理混合难度任务的对话模型，提升了代理在调试、安全及代码适配等子领域的性能。后续工作进一步探索了数据工程策略对模型缩放的影响，如通过合成任务增强泛化能力，这些成果发表在相关学术会议中，推动了智能终端代理领域的算法创新与基准建立，为更复杂的自动化系统开发提供了参考框架。

数据集最近研究