nemotron-terminal-data_querying
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-terminal-data_querying
下载链接
链接失效反馈官方服务:
资源简介:
nemotron-terminal-data_querying 数据集是 nvidia/Nemotron-Terminal-Corpus 数据集的一个过滤子集,专注于数据查询任务。该数据集适用于问答任务,涉及代码、终端、代理、跟踪和 sft 等领域。数据集包含多个列,如 'conversations'、'agent'、'model'、'model_provider'、'date'、'task'、'episode'、'run_id'、'trial_name' 和 'enable_thinking',以及额外的列 'source'、'difficulty' 和 'original_source'。数据集按照 'adapters_{code,math,swe}' 和各种技能类别(如 'debugging'、'security' 等)进行分区。难度级别分为 'easy'、'medium'、'mixed' 和 'na'。数据集采用 CC-BY-4.0 许可证,并提供了相关的引用信息。
提供机构:
LAION eV
创建时间:
2026-04-13
原始信息汇总
nemotron-terminal-data_querying 数据集概述
数据集基本信息
- 数据集名称: nemotron-terminal-data_querying
- 许可协议: CC-BY-4.0
- 主要任务类别: 问答
- 主要语言: 英语
- 标签: 代码、终端、智能体、轨迹、监督微调
数据集来源与构成
- 本数据集是
nvidia/Nemotron-Terminal-Corpus数据集的一个按来源划分的子集。 - 数据经过筛选,仅保留
source == "data_querying"的数据行。 difficulty列保留了原始的难度划分(easy/medium/mixed),对于来自dataset_adapters/*文件的数据,其难度标签为na。
分区方案
- adapters_{code,math,swe}: 数据行来自
dataset_adapters/{code,math,swe}.parquet。 - {skill} (例如
debugging,security, …): 数据行来自synthetic_tasks/skill_based/{easy,medium,mixed}/{skill}/data_filtered.parquet。
数据列说明
包含源数据集的所有列:conversations, agent, model, model_provider, date, task, episode, run_id, trial_name, enable_thinking。
额外包含以下列:
source: 分区键,在本数据集中始终为"data_querying"。difficulty: 难度等级,取值为easy/medium/mixed/na。original_source: 仅存在于adapters_code分区中,用于保留上游文件中原始的source列值(OpenCodeReasoning或synthetic)。
引用信息
如需引用,请使用以下 BibTeX 条目: bibtex @misc{pi2026dataengineeringscalingllm, title={On Data Engineering for Scaling LLM Terminal Capabilities}, author={Renjie Pi and Grace Lam and Mohammad Shoeybi and Pooya Jannaty and Bryan Catanzaro and Wei Ping}, year={2026}, eprint={2602.21193}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.21193}, }
原始数据集许可
CC-BY-4.0。
搜集汇总
数据集介绍

构建方式
在终端智能体研究领域,nemotron-terminal-data_querying数据集作为NVIDIA Nemotron-Terminal-Corpus的一个子集,专注于数据查询任务。其构建过程采用了精细的分区策略,从原始语料库中筛选出source字段为'data_querying'的样本,并保留了原始难度标签(easy、medium、mixed或na)。数据来源包括适配器文件(如dataset_adapters下的code、math、swe)以及基于技能合成的任务文件(如synthetic_tasks/skill_based下的debugging、security等),通过结构化过滤确保了任务的专业性和多样性。
特点
该数据集的特点体现在其多维度的标注体系上,不仅继承了原始数据集的对话序列、代理类型、模型信息等核心字段,还新增了source、difficulty和original_source等列,以增强数据的可追溯性和分析深度。难度分级为模型训练提供了清晰的评估基准,而适配器与合成任务的结合则覆盖了从代码推理到数学求解的广泛场景,为终端智能体的数据查询能力研究提供了丰富且结构化的实验基础。
使用方法
使用该数据集时,研究人员可依据难度标签进行分层抽样,以构建平衡的训练与测试集。通过解析conversations列中的对话轨迹,可以模拟终端环境下的交互式数据查询过程,用于监督微调或强化学习。此外,利用original_source字段可追溯数据起源,便于进行领域适应性分析。数据集以Parquet格式存储,支持高效加载与处理,适用于自然语言处理与代码生成交叉领域的能力评估和模型优化。
背景与挑战
背景概述
在人工智能与自然语言处理领域,终端智能体能力的提升已成为前沿研究方向。Nemotron-Terminal-Data_Querying数据集由NVIDIA研究团队于2026年创建,旨在通过大规模数据工程方法,系统性地扩展大型语言模型在终端环境下的数据查询与交互能力。该数据集聚焦于代码、数学及软件工程等专业领域的终端任务,其核心研究问题在于如何构建高质量、多样化的指令-响应对,以训练模型在复杂终端场景中执行精准的数据查询操作。这一工作不仅推动了终端智能体在自动化编程、系统调试等应用中的发展,也为数据驱动的模型能力扩展提供了重要基准。
当前挑战
该数据集致力于解决终端环境下数据查询任务的自动化挑战,其核心难点在于如何使模型准确理解用户意图,并在多步骤、多模态的终端交互中生成可靠且可执行的查询指令。构建过程中面临的挑战包括:数据源的异构性整合,需从代码适配、数学推理及软件工程等不同领域统一格式与语义;任务难度的精细化标注,以区分简单、中等及混合复杂度查询,确保模型训练的渐进性;以及合成数据与真实数据的平衡,在保持规模的同时保障数据的真实性与实用性。这些挑战共同指向了终端智能体在数据查询场景中鲁棒性与泛化能力的提升需求。
常用场景
经典使用场景
在终端智能体与代码交互的研究领域,nemotron-terminal-data_querying数据集为训练和评估大型语言模型在数据查询任务中的表现提供了核心资源。该数据集聚焦于终端环境下的数据查询场景,涵盖了从简单到复杂的多难度级别任务,使研究者能够系统地探索模型在结构化数据检索、命令生成与执行等方面的能力。通过模拟真实终端操作,该数据集支持模型学习如何解析用户查询、生成有效终端命令并返回准确结果,为终端智能体的开发奠定了数据基础。
实际应用
在实际应用层面,该数据集直接支撑了自动化数据查询工具与智能终端助手的开发。基于此类数据训练的模型可集成至数据分析平台或操作系统终端中,帮助用户通过自然语言指令快速执行复杂的数据检索与处理操作,例如查询数据库、过滤日志文件或生成数据摘要。这显著降低了非专业用户使用命令行工具的技术门槛,提升了数据工程师与分析师的工作效率。同时,模型在安全查询、错误规避等方面的能力训练,也有助于构建更可靠、用户友好的交互式终端环境。
衍生相关工作
围绕该数据集,已衍生出多项关于终端智能体能力扩展与评估的经典研究工作。例如,研究者利用其多难度任务划分,探索了课程学习策略对模型掌握复杂查询技能的促进作用;另有工作结合数据查询与其他终端技能(如调试、安全),构建了多任务学习框架以提升智能体的综合性能。此外,该数据集常被用作基准,用于评估指令微调、思维链提示等技术在提升模型终端推理准确性方面的效果。这些工作共同深化了对如何通过数据工程规模化提升大型语言模型终端能力的理解。
以上内容由遇见数据集搜集并总结生成



