OPENCODEINSTRUCT
收藏arXiv2025-04-05 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.04030v1
下载链接
链接失效反馈官方服务:
资源简介:
OPENCODEINSTRUCT是一个大规模的代码指令微调数据集,由NVIDIA的研究团队创建。该数据集包含500万个多样化的样本,每个样本包括编程问题、解决方案、测试用例、执行反馈和LLM生成的质量评估。数据集利用了1.43百万个通用编码指令和25,443个算法问题作为种子,通过合成数据生成框架生成。该数据集旨在促进大型语言模型在代码指令微调方面的研究,并加速代码LLM研究的进展。
OPENCODEINSTRUCT is a large-scale code instruction fine-tuning dataset created by NVIDIA's research team. This dataset contains 5 million diverse samples, each including a programming problem, solution, test cases, execution feedback, and quality assessment generated by large language models (LLMs). It was generated using a synthetic data generation framework, with 1.43 million general coding instructions and 25,443 algorithmic problems serving as seeds. This dataset aims to promote research on code instruction fine-tuning for large language models and accelerate the progress of code LLM research.
提供机构:
NVIDIA Santa Clara, CA 15213, USA
创建时间:
2025-04-05
搜集汇总
数据集介绍

构建方式
OPENCODEINSTRUCT数据集的构建采用了多阶段合成数据生成框架,首先整合了来自Stack V2的143万通用编程指令和TACO的25,443个算法问题作为初始种子。通过GENETIC-INSTRUCT框架结合SELF-INSTRUCT和EVOL-INSTRUCT方法,实现了指令的进化式扩展与交叉优化。每个样本均包含编程问题、解决方案、测试用例及执行反馈,并通过LLM生成的质量评估进行双重验证,最终形成包含500万样本的完整数据集。数据清洗阶段采用n-gram去重和基准污染检测,确保数据纯净度与多样性。
特点
该数据集作为当前最大规模的开源代码指令调优资源,其核心优势体现在三方面:内容维度上覆盖算法实现、系统编程等多元场景,每个样本配备动态生成的单元测试和LLM质量评分;质量管控方面采用执行反馈与模型评判的双重验证机制,通过测试通过率和人工对齐评分构建了分层质量指标体系;技术特色上融合了遗传算法思想,通过指令突变与交叉实现了问题复杂度的自适应演化,支持从基础语法到高级架构的渐进式学习。
使用方法
使用者可通过分层采样策略灵活应用该数据集:基础模型调优建议采用全量数据训练,重点关注LLM评判高分样本;领域适配时可结合测试通过率筛选特定编程范式的子集;研究场景下可利用其丰富的元数据(错误类型分布、技能标签等)进行可解释性分析。评估阶段推荐在HumanEval、MBPP等基准测试外,结合LiveCodeBench的动态题库验证模型泛化能力。数据集的模块化设计支持按需加载问题-解决方案对或完整测试套件,配套提供的质量评分权重可辅助训练策略优化。
背景与挑战
背景概述
OPENCODEINSTRUCT是由NVIDIA的研究团队于2025年推出的大规模代码指令调优数据集,旨在解决代码大语言模型(LLMs)在监督微调(SFT)阶段高质量公开数据稀缺的问题。该数据集包含500万条多样化的样本,每条样本均涵盖编程问题、解决方案、测试用例、执行反馈及LLM生成的质量评估。研究团队基于LLaMA和Qwen等基础模型,通过OPENCODEINSTRUCT进行微调,显著提升了模型在HumanEval、MBPP等主流代码生成基准上的性能。该数据集的推出为代码LLM的研究提供了丰富的资源,推动了自然语言与可执行代码之间的桥梁构建。
当前挑战
OPENCODEINSTRUCT面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,代码LLMs需要解决复杂的编程任务,如代码生成、自动调试和逻辑推理,而现有公开数据集在多样性和规模上均不足以支持这些任务的高效学习。构建过程中的挑战则体现在高质量指令数据的生成上,人工标注成本高昂,而依赖合成数据生成技术又可能导致数据重复或质量不均。此外,数据集的构建还需克服测试用例生成、执行反馈收集以及LLM质量评估的自动化难题,确保数据样本的多样性和准确性。
常用场景
经典使用场景
在代码生成与理解领域,OPENCODEINSTRUCT数据集凭借其500万条多样化样本,成为指令微调任务的首选资源。该数据集通过整合编程问题、解决方案、测试用例及执行反馈,为模型提供了从基础语法到复杂算法设计的全方位训练场景,特别适用于提升大语言模型在HumanEval、MBPP等基准测试中的表现。其多模态元数据(如LLM生成的质量评估)进一步优化了模型对齐过程,使得代码生成任务能够精准匹配开发者意图。
衍生相关工作
该数据集催生了多个里程碑式研究:Magicoder系列通过OSS-INSTRUCT方法扩展了开源代码的指令化应用;WizardCoder基于进化指令框架实现了复杂编程任务的渐进式学习;RepoCoder利用其元数据特征开发了仓库级代码补全系统。在评测体系方面,LiveCodeBench等新型基准测试借鉴了其多维度评估思想,推动形成了更全面的代码LLM评估范式。这些衍生工作共同构成了当前代码智能研究的核心架构。
数据集最近研究
最新研究方向
在代码大语言模型(Code LLMs)领域,OPENCODEINSTRUCT数据集的最新研究方向聚焦于如何通过大规模指令微调提升模型在复杂编程任务中的表现。该数据集以其500万样本的规模和多样性,为模型提供了丰富的编程问题、解决方案、测试用例及执行反馈,显著推动了代码生成、自动化调试等任务的前沿研究。当前研究热点包括探索不同参数规模的模型(如1B+、3B+、7B+)在HumanEval、MBPP等基准测试上的性能优化,以及如何利用合成数据生成技术(如GENETIC-INSTRUCT)进一步提升指令质量。这一数据集的开放共享,不仅填补了高质量公开代码指令数据的空白,还为代码智能领域的模型优化和应用落地提供了重要支持。
相关研究论文
- 1OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMsNVIDIA Santa Clara, CA 15213, USA · 2025年
以上内容由遇见数据集搜集并总结生成



