five

Nemotron-SFT-Competitive-Programming-v2-prompt-only

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/jamesdborin/Nemotron-SFT-Competitive-Programming-v2-prompt-only
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从源数据集nvidia/Nemotron-SFT-Competitive-Programming-v2中提取的纯提示词(prompt-only)版本,专门用于竞争性编程任务。它包含一个核心数据文件prompts.csv,其中每条记录对应源数据的一行,并提取了提示词(prompt)、独立的系统提示词(system_prompt)以及当源数据定义可用工具时的结构化工具信息(tools),嵌套值以JSON格式编码在CSV单元格中。数据集规模为841,555条提取行,无失败提示行。此外,还提供了summary.md(统计摘要)和null_or_empty_rows.md(空或无效提示的行索引)两个辅助文件。该数据集适用于大语言模型的提示工程、监督微调(SFT)或竞争性编程相关的模型训练与评估。

This dataset is a prompt-only version extracted from the source dataset nvidia/Nemotron-SFT-Competitive-Programming-v2, specifically designed for competitive programming tasks. It includes a core data file prompts.csv, where each record corresponds to a row from the source data, and extracts the prompt, independent system prompt, and structured tool information (tools) when the source data defines available tools, with nested values encoded in JSON format within CSV cells. The dataset size is 841,555 extracted rows, with no failed prompt rows. Additionally, two auxiliary files are provided: summary.md (statistical summary) and null_or_empty_rows.md (row indices for empty or invalid prompts). The dataset is suitable for prompt engineering in large language models, supervised fine-tuning (SFT), or training and evaluation of models related to competitive programming.
创建时间:
2026-06-26
原始信息汇总

数据集概述

  • 名称: Nemotron-SFT-Competitive-Programming-v2-prompt-only
  • 来源: 从 nvidia/Nemotron-SFT-Competitive-Programming-v2 数据集中提取的提示部分
  • 标签: nemotronprompt-onlypost-training

数据文件

数据集包含以下文件:

  • prompts.csv: 每条记录对应原始数据的一行,包含提示 (prompt)、分离的系统提示 (system_prompt),以及当原始行定义了可用工具时的结构化 tools 字段。嵌套值在 CSV 单元格内以 JSON 格式编码。
  • summary.md: 包含原始行数量、提取行数量、数量变化及失败提示数量统计。
  • null_or_empty_rows.md: 列出提示提取产生空或空提示的行索引。

数据统计

  • 提取总行数: 841,555 条
  • 失败提示行数: 0 条
  • 行数变化量: 0

其他信息

  • 上传者: jamesdborin
  • 工作流来源: Nemotron Post-Training v3 提示提取器工作流
搜集汇总
数据集介绍
main_image_url
构建方式
在竞争性编程领域,高质量的数据集对于训练大语言模型至关重要。Nemotron-SFT-Competitive-Programming-v2-prompt-only 数据集源自 nvidia/Nemotron-SFT-Competitive-Programming-v2,通过一套精心设计的提示提取流程构建而成。该流程从原始数据集中每条记录中分离出提示(prompt)、系统提示(system_prompt)以及结构化工具(tools)信息,并将嵌套值以 JSON 编码形式嵌入 CSV 单元格中。提取过程严格遵循后训练阶段的需求,最终生成了包含约 84 万条记录的 prompts.csv 文件,并辅以 summary.md 和 null_or_empty_rows.md 记录提取统计与异常行索引。
使用方法
使用该数据集时,开发者可直接加载 prompts.csv 文件,利用其中的 prompt、system_prompt 和 tools 字段构建训练样本。对于包含嵌套 JSON 的字段,需使用编程语言中的 JSON 解析库进行解码。典型应用场景包括对大型语言模型进行监督微调(SFT),以提升其在竞争性编程问题上的推理与代码生成能力。数据集以 prompt-only 形式发布,简化了数据预处理流程,允许用户直接将其集成到训练管道中,同时可参考 summary.md 和 null_or_empty_rows.md 进行质量验证与异常处理。
背景与挑战
背景概述
在大型语言模型的后训练阶段,指令微调(SFT)数据集的质量直接影响模型的推理能力与代码生成性能。Nemotron-SFT-Competitive-Programming-v2-prompt-only数据集由NVIDIA的研究团队于近期创建,源自其Nemotron后训练流程中的竞争性编程数据集v2版本,专注于提取结构化提示信息,以支持模型在算法竞赛场景中的微调。该数据集共包含841,555条处理后的提示记录,系统提示与工具定义以JSON格式嵌入CSV中,为多轮对话与工具调用任务提供了标准化输入。其发布拓宽了面向代码推理的提示工程资源,尤其对强化模型遵循复杂指令的能力具有重要价值。
当前挑战
该数据集面临的挑战体现在两方面:领域问题层面,竞争性编程要求模型既能理解自然语言描述的问题约束,又能生成符合算法复杂度要求的代码,现有模型常因提示模糊或上下文缺失导致逻辑错误;构建过程层面,原始数据中嵌套的JSON结构与工具调用链需要精确提取,空提示或格式异常行会污染训练效果,尽管当前版本实现了零失败行,但跨数据集的一致性维护仍是一项持续工程,尤其当工具定义随任务动态变化时,提示结构化提取的鲁棒性亟需优化。
常用场景
经典使用场景
Nemotron-SFT-Competitive-Programming-v2-prompt-only数据集由NVIDIA精心构建,专为后训练阶段的大语言模型指令微调而设计。其最经典的使用场景在于提取并标准化了超过84万条来自竞赛编程领域的细粒度提示,包含完整的系统提示与结构化工具定义。研究人员可利用该数据集训练模型从复杂问题描述中精准解析算法约束、输入输出格式以及隐含的求解策略,从而显著提升模型在算法竞赛、代码生成与逻辑推理方面的表现能力。
解决学术问题
该数据集旨在解决大语言模型在专业编程任务中普遍存在的指令遵循能力不足与工具调用鲁棒性欠佳等学术难题。传统的通用微调数据集往往缺乏对结构化工具与环境交互的细致建模,而Nemotron-SFT-Competitive-Programming-v2-prompt-only通过提供高度标准化且带有工具定义的提示对,使研究者能够系统性地探究模型如何理解多步骤求解流程、合理借用外部函数以及处理复杂约束条件。这一贡献为探索后训练阶段高效适应极端推理任务提供了宝贵的基准资源。
实际应用
在实际应用层面,该数据集能够显著赋能智能编程助手与自动代码评测系统。开发人员可基于此数据微调模型,使其在各类编程竞赛平台(如Codeforces、LeetCode)上更精准地理解用户输入的需求、生成符合要求的解决方案并适配不同编程语言的语法规范。此外,数据集中的结构化工具定义有助于模型学习调用外部库或API完成复杂任务,进而提升工业级代码生成产品的实用性与可靠性。
数据集最近研究
最新研究方向
该数据集聚焦于后训练阶段(post-training)的编程竞赛领域,通过提取高质量指令(prompt-only)来优化大语言模型的推理与代码生成能力。当前前沿方向包括:利用海量竞赛级编程问题与工具调用示例,强化模型在复杂逻辑约束下的链式思维(Chain-of-Thought)能力;结合结构化系统提示(system_prompt)与工具定义(tools),探索少样本或零样本条件下的自适应代码调试与优化。该数据集的出现呼应了2024年业界对“推理型模型”(如OpenAI o1系列)的追求,其大规模、无缺失的提示库为构建更严谨的编程智能体(Coding Agent)提供了基础,推动了大模型在算法竞赛、自动化开发等真实场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务