five

OpenCodeReasoning-2

收藏
Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/nvidia/OpenCodeReasoning-2
下载链接
链接失效反馈
官方服务:
资源简介:
OpenCodeReasoning-2是一个大规模的推理基础合成数据集,用于编码,包含Python语言1.4M个样本和C++语言1.1M个样本,跨越34,799个独特的竞赛编程问题。该数据集旨在用于代码完成和代码评审的监督微调(SFT)任务。数据集适用于商业和非商业用途。
提供机构:
NVIDIA
创建时间:
2025-05-04
搜集汇总
数据集介绍
main_image_url
构建方式
在编程推理领域,OpenCodeReasoning-2数据集通过整合多个权威编程竞赛平台的问题资源构建而成。其数据来源于TACO、APPS、CodeContests及open-r1/codeforces等公开数据集,覆盖CodeForces、LeetCode等34,799道独特编程题目。采用自动化流程生成内容,由R1模型负责代码生成,QwQ模型执行批判性分析,最终形成包含139万条Python样本与117万条C++样本的大规模语料库。
特点
该数据集以编程推理为核心特色,囊括了多维度结构化字段。每个样本不仅包含原始问题描述,还集成了模型生成的解决方案、批判性反馈及通过率评估。数据涵盖从基础到高阶的十种难度等级,并完整保留各题目的许可协议与来源平台元数据。其跨语言特性与单元测试验证机制,为代码生成与批判任务提供了立体化研究基础。
使用方法
使用者需通过组合式数据加载流程获取完整信息。首先从HuggingFace平台载入OpenCodeReasoning-2主体数据,继而根据样本标注的原始数据集名称与索引编号,动态关联至TACO、APPS等源数据集以补全问题描述。该设计既确保了数据版权合规性,又通过标准化接口实现了多源数据的无缝集成,为监督微调任务提供端到端支持。
背景与挑战
背景概述
编程推理作为人工智能领域的重要研究方向,旨在提升模型对复杂算法问题的理解与生成能力。OpenCodeReasoning-2由NVIDIA公司于2025年3月至5月期间构建,作为当前规模最大的代码推理合成数据集,涵盖Python与C++两种编程语言的257万条样本,整合了来自CodeForces、LeetCode等34,799道竞赛题目的多维数据。该数据集通过监督微调机制推动代码生成与批判性分析任务的发展,为编程教育自动化与智能编程助手等应用提供了核心训练资源。
当前挑战
在代码生成领域,模型需克服算法逻辑严密性与多语言语法差异的双重挑战,例如动态类型语言Python与静态类型语言C++的语义鸿沟。数据集构建过程中面临原始数据异构整合难题,包括十四个竞赛平台间题目描述格式标准化、测试用例完整性验证等问题。此外,通过R1模型生成解决方案与QwQ模型进行批判性评估的自动化流程,需确保生成代码的功能正确性与逻辑一致性,同时应对不同许可证协议下数据合规使用的复杂性。
常用场景
经典使用场景
在程序代码生成与推理研究领域,OpenCodeReasoning-2数据集为大规模监督微调提供了重要支撑。该数据集通过整合来自CodeForces、LeetCode等34,799道独特编程题目的250余万条样本,构建了涵盖Python与C++两种编程语言的完整训练体系。研究者可利用其中的问题描述、代码生成响应及质量评判数据,系统训练模型在复杂算法场景下的代码生成与自我修正能力。
衍生相关工作
围绕该数据集已衍生出多项重要研究工作,包括基于强化学习的代码生成优化框架、多模态代码理解模型以及代码质量自动评估系统。这些工作不仅扩展了原始数据集的应用边界,还推动了代码生成与自然语言处理领域的交叉创新。部分研究团队进一步构建了针对特定编程范式的子数据集,如面向函数式编程或并发编程的专项评测集,形成了以OpenCodeReasoning-2为核心的技术生态体系。
数据集最近研究
最新研究方向
在代码生成与推理领域,OpenCodeReasoning-2数据集正推动大语言模型在程序合成任务中的深度应用。该数据集通过整合多平台竞技编程问题与自动化生成的代码解决方案及批判性反馈,为模型监督微调提供了大规模高质量语料。当前研究聚焦于增强模型的逻辑推理能力与代码质量评估机制,探索如何利用合成数据提升模型在复杂编程场景下的泛化性能。随着代码智能技术的演进,该数据集已成为构建具备自我修正能力的代码生成系统的重要基石,为开源社区在可信人工智能领域的创新注入持续动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作