nemotron-terminal-scientific_computing

Name: nemotron-terminal-scientific_computing
Creator: LAION eV
Published: 2026-04-13 19:13:54
License: 暂无描述

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-terminal-scientific_computing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是 'nvidia/Nemotron-Terminal-Corpus' 的一个子集，筛选条件为 'source == "scientific_computing"'。数据集保留了原始数据集中 'easy' / 'medium' / 'mixed' 的难度分类（对于 'dataset_adapters/*' 文件，标记为 'na'）。分区方案包括 'adapters_{code,math,swe}'（来自 'dataset_adapters/{code,math,swe}.parquet'）和基于技能的分区（如 'debugging'、'security' 等）。数据集包含源数据集的列（如 'conversations'、'agent'、'model' 等）以及新增的列：'source'（分区键，此处为 'scientific_computing'）、'difficulty'（难度分类）和 'original_source'（仅在 'adapters_code' 中存在，保留原始 'source' 列的值）。数据集适用于问答任务，语言为英文，涉及代码、终端、代理等标签。

提供机构：

LAION eV

创建时间：

2026-04-13

原始信息汇总

nemotron-terminal-scientific_computing 数据集概述

数据集基本信息

许可证：CC-BY-4.0
任务类别：问答
语言：英语
标签：代码、终端、智能体、轨迹、监督微调

数据来源与构成

本数据集是 nvidia/Nemotron-Terminal-Corpus 数据集的子集，筛选条件为 source == "scientific_computing"。
分区构成：
- adapters_{code,math,swe}：数据来源于 dataset_adapters/{code,math,swe}.parquet 文件。
- {skill}（例如 debugging, security 等）：数据来源于 synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet 文件。

数据字段说明

继承自源数据集的字段：conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking。
新增字段：
- source：分区键，在本数据集中恒为 "scientific_computing"。
- difficulty：难度等级，取值为 easy / medium / mixed / na。其中 na 用于 dataset_adapters/* 文件，因其未携带难度标签。
- original_source：仅存在于 adapters_code 分区中，用于保留上游文件中的原始 source 列值（OpenCodeReasoning 或 synthetic）。

引用信息

如需引用，请使用以下BibTeX格式： bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }

搜集汇总

数据集介绍

构建方式

在科学计算与终端交互领域，nemotron-terminal-scientific_computing数据集作为NVIDIA Nemotron-Terminal-Corpus的子集，通过精细筛选机制构建而成。其核心逻辑是依据原始数据中的source字段，严格提取所有标记为scientific_computing的条目，从而形成一个专注于科学计算任务的独立分区。数据来源分为两大类别：一类源自dataset_adapters目录下的代码、数学与软件工程适配文件，另一类则来自synthetic_tasks中基于技能分类的合成任务数据，后者进一步按照难度等级进行分层整理。

使用方法

在科学计算与终端智能体能力评估的应用场景中，该数据集主要服务于指令微调与问答任务的研究。使用者可通过加载标准数据文件，依据难度标签或任务类型对数据进行划分，以构建训练与测试集。数据中的对话轨迹与元信息可直接用于训练终端操作智能体，或作为基准测试评估模型在代码执行、数学推理等科学计算任务上的表现。引用时需遵循CC-BY-4.0许可，并参考提供的学术文献以规范使用。

背景与挑战

背景概述

在人工智能与科学计算交叉领域，终端智能体能力的提升成为研究焦点。Nemotron-Terminal-Scientific_Computing数据集由NVIDIA研究团队于2026年构建，作为Nemotron-Terminal-Corpus的子集，专注于科学计算场景下的终端交互任务。该数据集旨在通过问答形式，训练大型语言模型在终端环境中执行代码调试、数学求解等复杂操作，以解决智能体在真实科学工作流中的适应性问题。其构建基于合成任务与适配器数据，涵盖了从基础到混合难度的技能分类，为推进终端导向的智能体研究提供了高质量、结构化的训练资源，对增强模型在专业领域的推理与执行能力具有显著影响力。

当前挑战

该数据集核心挑战在于解决终端智能体在科学计算领域的问题泛化与精确执行难题。科学计算任务通常涉及复杂的数学推导、代码调试及安全约束，要求模型不仅理解自然语言指令，还需生成准确可执行的终端命令，并处理多步骤交互中的错误恢复。在构建过程中，数据收集面临合成任务与真实场景的语义对齐挑战，需平衡难度分布以确保模型训练的渐进性；同时，数据过滤与标注需维持高质量标准，避免噪声引入导致模型行为偏差，这对数据工程的规模化与一致性提出了较高要求。

常用场景

经典使用场景

在科学计算领域，nemotron-terminal-scientific_computing数据集为训练和评估终端智能体提供了丰富的交互轨迹。该数据集聚焦于科学计算任务，涵盖了代码调试、数学建模及软件工程等技能，通过模拟真实终端环境中的对话序列，支持研究者构建能够理解并执行复杂计算指令的智能代理系统。其经典使用场景包括开发能够自主处理科学计算问题的终端助手，这些助手能够解析用户需求、生成代码并执行计算流程，从而提升科研工作的自动化水平。

解决学术问题

该数据集针对自然语言处理与代码生成交叉领域中的关键挑战，解决了智能体在终端环境中理解和执行科学计算任务的难题。通过提供结构化的对话轨迹和任务难度分级，它支持研究者在指令跟随、代码推理及多步问题求解等方面的探索，促进了终端智能体在复杂计算场景下的泛化能力与鲁棒性评估。其意义在于为数据驱动的智能体训练提供了高质量基准，推动了科学计算自动化与人工智能辅助研究的发展。

实际应用

在实际应用中，nemotron-terminal-scientific_computing数据集可赋能科研工具与教育平台的开发。例如，基于该数据集训练的智能体能够集成到科学计算软件中，为用户提供实时代码辅助、错误调试或数学问题求解功能；在教育领域，它可支持构建交互式学习系统，帮助学生通过自然语言指令练习编程与计算技能。这些应用不仅提升了科研效率，还降低了技术门槛，使复杂计算任务更易于访问和执行。

数据集最近研究