Nemotron-SFT-SWE-v2-prompt-only
收藏Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/jamesdborin/Nemotron-SFT-SWE-v2-prompt-only
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-SFT-SWE-v2-prompt-only是一个专门从源数据集nvidia/Nemotron-SFT-SWE-v2中提取的仅包含提示词部分的数据集。它旨在提供结构化的提示词记录,适用于指令微调、提示词工程或工具调用相关任务。数据集主要包含一个CSV文件(prompts.csv),其中每行对应一个提示词提取记录,包括prompt(提示词)、分离的system_prompt(系统提示词)以及结构化的tools(工具定义,当源行定义了可用工具时),嵌套值以JSON格式编码。此外,附带两个总结文件:summary.md(记录源行数、提取行数、计数差异和失败提示词数)和null_or_empty_rows.md(标识提示词提取结果为null或空的行索引)。数据规模为提取行数256,254,失败提示词行数为0,行数差异为0。该数据集由用户jamesdborin通过Nemotron Post-Training v3提示词提取器工作流上传,适用于语言模型训练、评估或提示词分析等场景。
Nemotron-SFT-SWE-v2-prompt-only is a dataset specifically extracted from the source dataset nvidia/Nemotron-SFT-SWE-v2, containing only the prompt portions. It aims to provide structured prompt records suitable for tasks such as instruction fine-tuning, prompt engineering, or tool invocation. The dataset primarily includes a CSV file (prompts.csv), where each row corresponds to a prompt extraction record, containing prompt (the prompt), a separate system_prompt (system prompt), and structured tools (tool definitions, when the source row defines available tools), with nested values encoded in JSON format within CSV cells. Additionally, it comes with two summary files: summary.md (recording source row count, extracted row count, count differences, and failed prompt count) and null_or_empty_rows.md (identifying row indices where prompt extraction results are null or empty). In terms of data scale, the extracted row count is 256,254, with 0 failed prompt rows and 0 row count difference. This dataset was uploaded by user jamesdborin via the Nemotron Post-Training v3 prompt extractor workflow and is applicable for scenarios such as language model training, evaluation, or prompt analysis.
创建时间:
2026-06-26
原始信息汇总
数据集概述
基本信息
- 数据集名称: Nemotron-SFT-SWE-v2-prompt-only
- 来源: 从
nvidia/Nemotron-SFT-SWE-v2数据集中提取的仅包含提示(prompt)部分的内容。 - 标签: nemotron, prompt-only, post-training
文件内容
- prompts.csv: 每个原始行对应一个提示提取记录。记录包括:
prompt(提示文本)- 分离的
system_prompt(系统提示) - 当原始行定义了可用工具时,包含结构化的
tools(工具)。嵌套值在CSV单元格中以JSON编码。
- summary.md: 包含原始行数量、提取行数量、数量差异及失败提示数量。
- null_or_empty_rows.md: 列出提示提取结果为空或空提示的行索引。
数据统计
- 提取行数: 256,254
- 失败提示行数: 0
- 行数差异: 0
其他信息
- 由
jamesdborin上传,源自 Nemotron Post-Training v3 提示提取器工作流。
搜集汇总
数据集介绍

构建方式
Nemotron-SFT-SWE-v2-prompt-only 数据集源自 nvidia/Nemotron-SFT-SWE-v2,通过后训练提示提取器工作流从原始数据中提取出仅包含提示信息的子集。该数据集以prompts.csv文件形式呈现,每条记录对应源数据中的一行,包含prompt字段,并将系统提示(system_prompt)与结构化工具描述(tools)分离存储。对于嵌套数值,采用JSON编码嵌入CSV单元格中以确保数据结构完整。同时,summary.md与null_or_empty_rows.md文件分别汇总了提取行数及空提示行索引,确保数据提取过程的透明与可追溯。
特点
该数据集的核心特色在于其专注于提示信息的纯净提取,包含256254条无缺失提示样本,且提取失败率为零,体现了极高的数据完整性。通过分离系统提示与工具定义,数据集为大型语言模型的指令微调与工具调用场景提供了清晰的结构化输入。此外,嵌套值的JSON编码处理使得复杂工具描述得以无损保留,适用于多轮对话与任务导向型模型的训练与评估。
使用方法
使用该数据集时,研究者可直接加载prompts.csv文件,利用其中的prompt字段作为模型输入,system_prompt与tools字段则辅助构建完整的对话上下文。数据集支持分块加载以适应大规模训练需求,并可通过null_or_empty_rows.md过滤无效样本。适用于基于提示的微调实验、工具调用能力评测以及后训练阶段的对比分析,需注意JSON编码字段需在加载时解码。
背景与挑战
背景概述
在大型语言模型的后训练阶段,指令微调数据的质量与结构对模型性能起着决定性作用。Nemotron-SFT-SWE-v2-prompt-only数据集由NVIDIA研究团队于2023年创建,旨在从原始的多轮对话指令数据集中提取结构化的提示信息。该数据集基于NVIDIA发布的Nemotron-SFT-SWE-v2源数据集,专注于将非结构化的对话数据转化为包含系统提示、工具定义的标准化提示格式。作为一个专为后训练场景优化的数据子集,它保留了超过25万条高质量记录,为提升语言模型在软件工程领域的指令遵循能力提供了关键数据支撑,显著推动了后训练数据预处理技术的发展。
当前挑战
该数据集构建面临的首要挑战在于如何从复杂的多轮交互中准确分离并提取独立的提示结构。原始数据中工具定义与系统提示的嵌套关系使得自动化提取极易产生语义断裂或信息丢失,需要设计精密的解析算法来保持数据完整性。此外,确保提取后的提示在去除上下文依赖后仍能保持语义自立性和任务可理解性是一个关键难题,这要求在数据清洗过程中平衡简化与保真度之间的关系。最终需要在256254条记录的庞大规模下实现零失败的提取粒度,对数据管道在错误处理、质量控制和一致性验证方面提出了极高要求。
常用场景
经典使用场景
在软件工程与自然语言处理交叉领域,Nemotron-SFT-SWE-v2-prompt-only数据集专为代码生成与修复任务的指令微调而设计。其核心用途在于为大型语言模型提供标准化的提示模板,使其能够基于结构化系统指令和工具定义,精准完成从代码漏洞修复到功能实现的复杂软件工程任务。研究者通常利用该数据集训练模型理解上下文约束下的代码补全逻辑,或评估模型在真实世界bug修复场景中的泛化能力。
解决学术问题
该数据集有效回应了后训练阶段中提示工程与模型对齐的学术挑战。通过分离系统提示与工具调用结构,它解决了传统微调数据中指令模糊性导致的模型输出偏差问题。其贡献在于为软件工程领域的指令遵循能力评估提供了可复现基准,推动了对大型语言模型在结构化任务中工具利用效能的量化研究,显著影响了代码智能领域从纯生成向交互式问题求解的范式转型。
衍生相关工作
基于该数据集,衍生了一系列关键研究工作,例如Prompt Extractor算法优化文献探讨了如何从非结构化数据中提取有效系统提示,以及工具增强型语言模型论文验证了结构化工具定义对多步骤代码生成准确率的提升。此外,Nemotron Post-Training v3框架的消融实验成果常以此为验收基准,推动了指令微调数据质量评估标准的建立,形成了覆盖数据提纯、模型训练与下游应用验证的完整研究链条。
以上内容由遇见数据集搜集并总结生成



