Nemotron-SFT-Competitive-Programming-v2

Name: Nemotron-SFT-Competitive-Programming-v2
Creator: NVIDIA
Published: 2026-03-11 10:03:38
License: 暂无描述

Hugging Face2026-03-11 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-SFT-Competitive-Programming-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Competitive-Programming-v2 是一个大规模合成的编程和推理数据集，旨在提升大型语言模型（LLM）在具有挑战性的编程和系统任务上的表现。该数据集结合了Python和C++的独特竞赛编程题目样本，并包含来自Exercism的编程语言练习子集以及Text-to-SQL任务样本。数据集适用于商业用途，包含三个主要子集：竞赛编程（Python和C++共约669k样本）、Exercism Python练习（40k样本）和Text-to-SQL（96.5k样本），总计约845k样本。数据集格式为JSONL，总存储量约91GB。该数据集适用于代码补全、代码审查以及企业级SQL代理的微调任务。

提供机构：

NVIDIA

创建时间：

2026-03-08

搜集汇总

数据集介绍

构建方式

在编程与系统任务领域，为提升大型语言模型的复杂推理能力，Nemotron-SFT-Competitive-Programming-v2数据集采用合成生成方法构建。其核心子集涵盖Python与C++两种编程语言，基于34,799道独特的竞赛编程题目，通过自动化流程生成了超过33万条样本。此外，数据集还整合了来自Exercism平台的Python练习题目，以及针对文本到SQL转换任务的高保真合成数据，整体规模达到约84.5万条样本，数据存储量约为91GB。构建过程依托NVIDIA Data Designer等工具，模拟了包含噪声数据与干扰表的真实企业环境，确保了数据的多样性与挑战性。

使用方法

为有效利用该数据集进行监督微调，用户可通过Hugging Face的datasets库直接加载各子集，包括competitive_coding_cpp、competitive_coding_python、exercism与text_to_sql。数据格式为JSONL，每条记录包含文本与元数据。使用示例代码展示了如何从原始基准数据集（如TACO、APPS、code_contests）中提取问题描述，并与本数据集进行关联验证，确保数据的一致性与完整性。研究人员与开发者可依据具体任务需求，选择相应子集进行模型训练，以优化代码生成、代码审查或SQL查询构建等能力，推动开放模型在编程与系统任务上的持续进步。

背景与挑战

背景概述

在人工智能与编程语言处理领域，大型语言模型在代码生成与推理任务上的性能提升已成为研究热点。Nemotron-SFT-Competitive-Programming-v2数据集由NVIDIA公司于2025年创建，旨在通过大规模合成数据推动模型在竞争性编程、文本到SQL转换及编程练习等复杂系统任务上的表现。该数据集整合了Python与C++的代码样本，覆盖超过3.4万个独特编程问题，并包含来自Exercism平台的练习及企业级SQL任务模拟，其核心研究问题聚焦于增强模型在代码完成、批判性审查及结构化查询语言推理方面的能力，为开源模型的持续优化提供了关键数据支撑，对代码智能与自动化编程领域的发展具有显著影响力。

当前挑战

该数据集致力于解决编程语言处理中的多重挑战，包括提升模型在竞争性编程问题上的代码生成准确性、增强对复杂SQL查询的语义理解与执行能力，以及应对企业环境中噪声数据与多方言约束的适应性。在构建过程中，挑战主要源于大规模合成数据的高保真生成，需确保代码样本的逻辑一致性与多样性，同时避免与现有基准数据的重复；此外，模拟真实企业场景时，需整合干扰表、方言特定约束等元素，以训练模型进行有效的模式链接与可执行SQL生成，这对数据生成管道的设计与验证提出了较高要求。

常用场景

经典使用场景

在编程语言与人工智能交叉领域，Nemotron-SFT-Competitive-Programming-v2数据集为大型语言模型的监督微调提供了关键资源。其经典使用场景集中于代码生成与逻辑推理任务，特别是针对竞争性编程问题，涵盖Python与C++两种主流语言。通过包含大量独特编程题目及其合成解决方案，该数据集能够训练模型完成从问题理解到代码实现的完整流程，同时强化模型对算法复杂度和执行效率的批判性评估能力。

解决学术问题

该数据集有效应对了当前代码生成研究中数据质量与规模之间的平衡难题。它通过合成方法生成了数十万条高保真样本，解决了传统数据集中标注噪声大、覆盖范围有限的问题。在学术层面，数据集支持对模型推理链学习、跨语言代码迁移以及文本到结构化查询转换等核心课题的深入探索，为提升模型在复杂编程任务中的泛化性能与鲁棒性提供了实证基础。

实际应用

在实际应用层面，该数据集直接服务于企业级人工智能系统的开发。其文本到SQL子集模拟了混乱的企业数据环境，包含噪声数据和干扰表，能够训练模型生成可直接执行的SQL查询，助力构建智能数据库代理。此外，竞争性编程部分可用于开发自动化代码评审工具和编程教育平台，帮助开发者优化代码质量，并为计算机科学教学提供丰富的实践案例。

数据集最近研究