nemotron_terminal_filtered
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/locailabs/nemotron_terminal_filtered
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron Terminal Filtered 是一个经过不确定性筛选的数据集,源自 NVIDIA 的 Nemotron-Terminal-Corpus(dataset_adapters 分割)。该数据集包含 30,000 个样本,这些样本是通过计算模型在生成前 32 个 token 时的熵值(作为不确定性代理)筛选出的高价值样本,适用于终端代理的后续训练。数据集保留了原始数据集的所有列,并将 'conversations' 重命名为 'messages' 以兼容 OpenAI 聊天格式。主要字段包括:messages(多轮聊天消息)、agent(代理标识符)、model(用于轨迹生成的模型)、model_provider(模型提供商)、date(轨迹生成日期)、task(任务描述)、episode(剧集标识符)、run_id(运行标识符)、trial_name(试验名称)、enable_thinking(是否启用了思考/推理)、source(轨迹来源数据集)。该数据集适用于问答任务,特别是与代码和终端相关的任务。
创建时间:
2026-04-13
原始信息汇总
Nemotron Terminal Filtered 数据集概述
数据集基本信息
- 数据集名称: Nemotron Terminal Filtered
- 托管地址: https://huggingface.co/datasets/locailabs/nemotron_terminal_filtered
- 许可证: cc-by-4.0
- 任务类别: 问答
- 主要语言: 英语
- 标签: 代码、终端、不确定性采样
- 数据规模: 10K<n<100K
数据集描述
该数据集是 NVIDIA 的 Nemotron-Terminal-Corpus(dataset_adapters 分割)的一个不确定性筛选子集,专为对 NVIDIA-Nemotron-3-Super-120B-A12B-BF16 模型进行后训练而精选,具有较高的信息密度。
数据集来源与构建动机
- 来源数据集: NVIDIA 的 Nemotron-Terminal-Corpus(
dataset_adapters分割,约 226k 个终端执行轨迹)。 - 构建动机: 为后训练筛选一个紧凑、高价值的子集。通过使用熵作为不确定性代理,对每个样本进行评分,筛选出模型认为最困难、不确定性最高的任务,从而使模型能够学到最多。
- 最终规模: 从原始数据集中筛选出 30,000 个样本。
筛选方法
- 对于每个样本,提取系统消息和第一个用户消息作为提示。
- 模型在温度 0(贪婪解码,启用推理)下生成 32 个令牌,并收集每个令牌的前 20 个对数概率。这 32 个令牌的窗口用于捕捉模型对任务的初始推理。
- 计算每个样本的熵:在 32 个令牌窗口上,对重新归一化的 top-k 分布计算平均香农熵。高熵意味着模型将概率分散在许多备选方案上——即模型对生成内容确实不确定。
- 样本按熵值排序,选择前 30,000 个。
数据列说明
| 列名 | 描述 |
|---|---|
messages |
多轮聊天消息(由 conversations 重命名而来) |
agent |
代理标识符 |
model |
用于轨迹生成的模型 |
model_provider |
模型提供者 |
date |
轨迹生成日期 |
task |
任务描述 |
episode |
事件标识符 |
run_id |
运行标识符 |
trial_name |
试验名称 |
enable_thinking |
轨迹生成期间是否启用了思考/推理 |
source |
轨迹所源自的源数据集(某些子集为空值) |
使用方法
python from datasets import load_dataset ds = load_dataset("locailabs/nemotron_terminal_filtered", split="train")
参考文献
bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
搜集汇总
数据集介绍

构建方式
在终端智能体领域,数据质量直接影响模型对复杂指令的理解与执行能力。Nemotron Terminal Filtered数据集通过不确定性采样策略,从NVIDIA原始数据集的约22.6万条终端执行轨迹中精选出3万条样本。具体构建过程首先提取每条样本的系统提示与用户初始指令作为输入,随后采用贪婪解码方式让目标模型生成32个令牌,并计算其top-20对数概率的香农熵均值。熵值越高的样本代表模型在推理过程中表现出越强的不确定性,这些高熵样本被优先筛选出来,形成了一套聚焦于模型认知薄弱环节的高密度训练集合。
特点
该数据集的核心特征体现在其通过熵值量化的认知挑战性,每条样本都标注了模型在初始推理阶段的概率分布分散度。数据集完整保留了原始数据的多维度元信息,包括智能体标识、模型来源、任务描述及执行轨迹的时空标记等字段,同时将对话格式统一调整为OpenAI兼容的消息结构。这种设计既确保了数据在终端操作语义上的丰富性,又为后续的指令微调与强化学习提供了可追溯的实验基础。
使用方法
使用者可通过HuggingFace数据集库直接加载该数据集的训练分割,其标准化的消息字段可直接适配主流对话模型的输入格式。在终端智能体训练场景中,该数据集适用于模型后训练阶段的指令优化,特别是针对模型不确定性较高的复杂任务进行针对性增强。研究人员亦可结合元数据字段对不同智能体或任务类型的表现进行分层分析,探索终端操作推理中的认知边界与改进路径。
背景与挑战
背景概述
在人工智能与自然语言处理领域,终端智能体作为连接语言模型与操作系统环境的关键接口,其训练数据的质量直接决定了模型的实际效能。Nemotron Terminal Filtered数据集由NVIDIA研究团队于2026年创建,源于其大规模指令微调数据集Nemotron-Terminal-Corpus。该数据集的核心研究问题聚焦于通过不确定性采样策略,从海量终端执行轨迹中筛选出信息密度最高的子集,旨在优化大型语言模型在终端任务上的后续训练效率。其构建基于熵值计算,量化模型对任务的不确定性,从而选取最具学习价值的样本,这一方法显著提升了数据集的针对性与训练效果,对推动终端智能体的能力边界具有重要影响力。
当前挑战
该数据集致力于解决终端智能体领域中的核心挑战,即如何使语言模型在复杂的交互式终端环境中准确理解并执行用户指令,这涉及对多轮对话、系统状态及动态反馈的综合处理。构建过程中的主要挑战在于从原始数据集中高效识别出能够最大化模型学习收益的样本。传统随机或启发式采样方法难以保证样本的区分度与训练价值,而基于不确定性的熵值评估需平衡计算开销与评估精度,确保在数十万条轨迹中精准捕获模型认知模糊的高熵样本,同时维持数据格式的兼容性与标注一致性。
常用场景
经典使用场景
在终端智能体研究领域,nemotron_terminal_filtered数据集通过不确定性采样策略,精选出模型预测熵值最高的3万条样本,为大型语言模型的指令微调提供了高质量的训练资源。该数据集聚焦于终端命令执行轨迹,模拟真实交互场景,使模型能够学习复杂任务中的推理与决策过程,从而提升其在终端环境下的指令遵循与问题解决能力。
解决学术问题
该数据集有效应对了终端智能体训练中数据质量参差不齐的挑战,通过熵值筛选机制,识别出模型最不确定的样本,从而针对性地强化模型在困难任务上的泛化性能。此举不仅优化了数据利用效率,还为研究模型不确定性校准、样本难度评估等核心问题提供了实证基础,推动了终端智能体领域数据工程方法的进步。
衍生相关工作
围绕该数据集衍生的经典工作包括终端智能体能力扩展研究、不确定性采样在数据筛选中的应用探索,以及基于熵值评估的模型微调策略优化。相关研究进一步推动了终端轨迹生成、多轮对话强化学习等方向的发展,并为后续如Nemotron-Terminal-Corpus等更大规模数据集的构建与利用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



