Nemotron-Competitive-Programming-v1

Name: Nemotron-Competitive-Programming-v1
Creator: NVIDIA
Published: 2025-12-15 18:30:24
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Competitive-Programming-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Competitive-Programming-v1是一个大规模合成的编码和推理数据集，旨在提升大型语言模型在具有挑战性的编程和系统任务上的性能。它结合了Python和C++的样本，涵盖了独特的竞争性编程问题。除了问题解决，该数据集还包括InfiniByte，这是一个跨领域的子集，问题来源于科学领域。该数据集可用于商业用途。竞争性编码子集是迄今为止最大的基于推理的合成编码数据集，包含超过200万个Python样本和100万个C++样本，涵盖34,799个独特的竞争性编程问题。该子集设计用于代码完成和代码批评的监督微调任务。InfiniByte是一个新的跨领域编码导向子集，通过将来自不同科学领域的概念结合在一起，创造出全新的编程问题。

提供机构：

NVIDIA

创建时间：

2025-12-15

原始信息汇总

Nemotron-Competitive-Programming-v1 数据集概述

数据集基本信息

数据集名称：Nemotron-Competitive-Programming-v1
所有者：NVIDIA Corporation
创建日期：2025年12月3日
最后修改日期：2025年12月3日
许可证：Creative Commons Attribution 4.0 International License (CC BY 4.0)
语言：英语
数据格式：JSONL
模态：文本
结构：文本 + 元数据
总磁盘大小：约178 GB
总样本数：3,927,984

数据集描述

Nemotron-Competitive-Programming-v1 是一个大规模合成编码和推理数据集，旨在提升大语言模型在具有挑战性的编程和系统任务上的性能。它结合了独特竞争性编程问题中的 Python 和 C++ 样本。

该数据集已准备好用于商业用途。

数据集构成与量化

子集详情

子集名称	样本数量
competitive_coding_cpp	932,012
competitive_coding_python	1,821,278
infinibyte	1,174,694
总计	3,927,984

竞争性编码子集

这是迄今为止最大的基于推理的合成编码数据集。
包含超过200万个Python样本和超过100万个C++样本，涵盖34,799个独特的竞争性编程问题。
设计用于代码补全和代码审查的监督微调任务。
相关资源：https://github.com/NVIDIA/NeMo-Skills

InfiniByte 子集

一个新的跨领域编码导向子集，通过交叉融合多个数据集创建。
通过将来自数学、物理、化学和其他科学领域的概念注入到精选的竞争性编程问题中来生成全新的编程问题。
生成过程包括：为每个（问题，概念）组合生成多个候选问题，根据清晰度、难度和交叉融合策略遵循性等标准选择最佳候选，并使用推理模型为每个新编码问题生成解决方案。

预期用途

旨在供社区使用，以继续改进开放模型在代码编写和审查任务上的性能。

数据收集方法

混合方法：自动化、合成。

参考文献

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding (https://arxiv.org/abs/2504.01943)
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique (https://arxiv.org/abs/2507.09075)
GenSelect: A Generative Approach to Best-of-N (https://arxiv.org/abs/2507.17797)
DeepSeek-R1-0528 (https://huggingface.co/deepseek-ai/DeepSeek-R1-0528)

伦理考量

NVIDIA 认为可信赖的 AI 是一项共同责任。开发者应与其内部开发团队合作，以确保该数据集满足相关行业和用例的要求，并解决不可预见的产品误用问题。

搜集汇总

数据集介绍

构建方式

在编程与推理领域，Nemotron-Competitive-Programming-v1数据集通过合成方法构建，其核心基于OpenCodeReasoning框架。该数据集整合了来自多个公开编程竞赛平台的问题，包括TACO、APPS、Codeforces及DeepMind的code_contests，并采用自动化流程生成Python与C++的解答样本。针对InfiniByte子集，设计者进一步引入了跨学科概念融合策略，从数学、物理、化学等科学领域抽取知识，通过大语言模型批判性筛选，创造出新颖的编程问题及其对应解法，从而实现了大规模、高质量的合成数据生成。

特点

本数据集以其规模与多样性著称，总计包含近四百万条样本，涵盖竞争性编程与跨学科问题两大子集。竞争编程部分提供了超过两百万条Python样本与近百万条C++样本，覆盖三万四千余个独特题目，专为代码补全与代码评审任务设计。InfiniByte子集则通过交叉融合不同科学领域的知识，构建出具有创新性的编程问题，增强了数据在复杂推理与跨域应用上的挑战性。数据集采用JSONL格式存储，结构清晰，便于后续处理与分析。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，并参照提供的示例代码进行问题与解答的提取。用户需首先加载相关基准数据集，如TACO、APPS等，然后根据数据条目中的元信息索引原始问题描述。数据集适用于监督微调场景，特别是代码生成与代码审查任务的模型训练。在实际应用中，开发者可依据自身需求，灵活选取Python或C++子集，或利用InfiniByte进行跨领域编程能力的增强，以提升模型在复杂编程环境中的表现。

背景与挑战

背景概述

在人工智能与编程语言交叉领域，大型语言模型（LLM）的代码生成与推理能力已成为前沿研究热点。Nemotron-Competitive-Programming-v1数据集由NVIDIA公司于2025年12月3日创建并发布，旨在通过大规模合成数据推动LLM在复杂编程与系统任务上的性能突破。该数据集整合了Python与C++两种编程语言的竞技编程题目，涵盖超过34,799个独特问题，并引入跨科学领域的InfiniByte子集，其核心研究问题聚焦于提升模型在代码补全与代码审查等监督微调任务中的表现，为开源社区在代码写作与评审任务上的模型优化提供了重要数据支撑。

当前挑战

该数据集致力于解决编程代码生成领域的核心挑战，即如何让模型在竞技编程等高难度场景中实现准确、高效的代码推理与生成。构建过程中的主要挑战包括：如何从多个现有数据源（如TACO、APPS、Codeforces等）中系统性地提取与整合问题描述，确保数据的一致性与完整性；以及如何通过跨领域概念注入（如数学、物理、化学等科学知识）创造新颖且合理的编程问题，同时利用LLM作为评判者来筛选问题候选，以保证生成问题的清晰度、难度与策略契合度，这一过程对自动化流程的鲁棒性与评判标准的科学性提出了较高要求。

常用场景

经典使用场景

在编程语言模型的研究领域，Nemotron-Competitive-Programming-v1数据集为监督微调任务提供了丰富的资源。该数据集整合了Python和C++两种主流编程语言，覆盖了超过三万道独特的竞技编程题目，旨在提升模型在复杂算法问题上的代码生成与审查能力。研究人员通过该数据集能够训练模型理解问题描述、生成高效解决方案，并进行代码质量评估，从而推动智能编程助手的发展。

衍生相关工作

基于该数据集，学术界衍生了一系列重要研究，例如OpenCodeReasoning系列工作探索了数据蒸馏与测试时缩放策略，提升了模型在竞技编程任务上的表现。GenSelect研究则利用生成方法优化了最佳选择策略。这些工作共同推动了代码推理模型的技术前沿，为后续如DeepSeek-R1等先进模型的开发提供了数据与方法的支撑。

数据集最近研究