Nemotron-Cascade-SFT-SWE
收藏Hugging Face2025-12-16 更新2025-12-18 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Cascade-SFT-SWE
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Cascade-SFT-SWE数据集是用于软件工程(SWE)代码修复任务的强化学习训练数据,由多个子数据集组成,包括SWE-Bench-Train、SWE-reBench、SWE-Smith、R2E-Gym/R2E-Gym-Subset和SWE-Fixer-Train。数据集根据难度选择用于监督微调(SFT)和强化学习(RL)阶段的训练数据,并排除了可能引起数据污染的实例。数据集的提示遵循agentless mini框架,包含三个任务:错误代码定位、代码修复和测试用例生成。响应是通过DeepSeek-R1-0528模型生成的。
提供机构:
NVIDIA
创建时间:
2025-12-16
原始信息汇总
Nemotron-Cascade-SFT-SWE 数据集概述
数据集基本信息
- 名称:Nemotron-Cascade-SFT-SWE
- 许可证:CC-BY-4.0
- 主要标签:NVIDIA, 推理, 代码, 监督微调
- 语言:英语 (en)
数据集描述
该数据集是用于软件工程(SWE)代码修复任务的强化学习(RL)训练数据。它由多个现有数据集组合而成,包括 SWE-Bench-Train、SWE-reBench、SWE-Smith、R2E-Gym/R2E-Gym-Subset 以及 SWE-Fixer-Train。数据根据难度被筛选用于监督微调(SFT)和强化学习(RL)阶段。为避免数据污染,已排除所有源自评估数据集 SWE-Bench_Verified 中存在的仓库的实例。
数据构建方法
- 提示构建:遵循“无代理迷你框架”,包含三个任务:错误代码定位、代码修复和测试用例生成。
- 响应生成:使用 DeepSeek-R1-0528 模型生成。
- 性能成果:使用本数据集及其对应的 RL 数据集进行训练后,8B 和 14B 模型在 SWE-Bench 上(不使用 TTS)的 pass@1 解决率分别达到 37.2 和 43.1。
- 技术细节:更详细的数据创建过程可查阅技术报告(https://arxiv.org/abs/2512.13607)。
- 数据混合说明:所有 SWE 数据集在并入第二阶段 SFT 数据混合前,均进行了 3 倍上采样。
训练数据统计
代码定位任务
| 数据源 | 问题数量 | 样本数量 |
|---|---|---|
| SWE-Fixer-Train | 52,702 | 53,230 |
| SWE-Smith | 9,707 | 9,714 |
| SWE-Bench-Train | 10,251 | 16,184 |
| SWE-reBench | 9,654 | 9,693 |
| R2E-Gym/R2E-Gym-Subset | 3,444 | 3,444 |
代码修复任务
| 数据源 | 问题数量 | 样本数量 |
|---|---|---|
| SWE-Fixer-Train | 22,311 | 33,301 |
| SWE-Smith | 2,822 | 17,625 |
| SWE-Bench-Train | 3,660 | 19,540 |
| SWE-reBench | 2,822 | 16,441 |
测试用例生成任务
| 数据源 | 问题数量 | 样本数量 |
|---|---|---|
| SWE-Fixer-Train | 18,792 | 19,678 |
| SWE-Smith | 2,731 | 2,881 |
| SWE-Bench-Train | 4,797 | 6,066 |
| SWE-reBench | 3,021 | 3,026 |
数据结构
每个数据示例包含以下字段:
- category (str):任务类别,例如 SWE Repair / SWE Localization / SWE TestGen。
- source (str):实例原始来源的数据集名称。
- messages (list):遵循无代理迷你框架的用户提示和模型响应。
- generator (str):用于生成响应的模型。
- patch (str):在解决方案 PR 的第一个提交创建日期之前,对问题所做的评论。
- thinking (bool):是否为思考模式。
搜集汇总
数据集介绍

构建方式
在软件工程领域,自动化代码修复任务对提升开发效率至关重要。Nemotron-Cascade-SFT-SWE数据集的构建过程体现了严谨的工程化设计,其核心源于多个权威的代码修复基准数据集,包括SWE-Bench-Train、SWE-reBench、SWE-Smith、R2E-Gym-Subset以及SWE-Fixer-Train。为确保模型训练的有效性与泛化能力,构建者依据任务难度筛选了适用于监督微调与强化学习阶段的样本,并主动排除了与评估集SWE-Bench_Verified存在仓库重叠的实例,以规避数据污染风险。提示词的设计遵循了无代理微型框架,系统性地涵盖了缺陷定位、代码修复与测试用例生成三大子任务,而响应内容则由先进的DeepSeek-R1-0528模型生成,最终形成了结构清晰、目标明确的训练语料。
特点
该数据集在代码修复与软件工程任务领域展现出鲜明的特色。其内容组织并非单一任务的简单集合,而是围绕缺陷定位、代码修复和测试用例生成这三个紧密关联的环节进行了系统化构建,模拟了真实的软件开发调试流程。数据来源具有高度的多样性与代表性,汇聚了多个经过社区验证的基准数据集,确保了问题场景的广泛覆盖。尤为突出的是,数据构建过程严格考虑了评估的公正性,通过剔除潜在的重叠仓库,有效保障了模型性能评估结果的可靠性。数据集的结构设计也颇为明晰,每个样本均标注了任务类别、原始来源、对话消息、生成模型及关键元数据,为后续的研究与应用提供了丰富的上下文信息。
使用方法
对于旨在提升代码修复能力的大语言模型研发而言,本数据集提供了明确的实践路径。研究者可将其直接用于模型的监督微调阶段,通过输入遵循特定框架构造的提示词,引导模型学习定位代码缺陷、生成修复补丁以及编写验证测试用例的复合能力。数据集中包含的‘thinking’模式标识,为探索链式思考或直接输出等不同推理策略提供了便利。在使用前,建议使用者仔细查阅其技术报告,以深入理解数据构建细节、样本筛选逻辑以及在不同模型规模上取得的基准性能(如pass@1解决率),从而合理设计实验并进行对比分析。该数据集通常作为Nemotron-Cascade训练流程中紧随其后的强化学习阶段的数据基础,共同服务于端到端的代码智能体训练。
背景与挑战
背景概述
在软件工程领域,自动化代码修复是提升开发效率与软件质量的关键研究方向。Nemotron-Cascade-SFT-SWE数据集由NVIDIA于近期构建,旨在为强化学习训练提供高质量的软件工程代码修复任务数据。该数据集整合了SWE-Bench-Train、SWE-reBench、SWE-Smith、R2E-Gym-Subset及SWE-Fixer-Train等多个权威子集,专注于解决代码缺陷定位、修复及测试用例生成三大核心任务。其技术报告发布于2024年,通过采用无代理微型框架构建提示,并利用DeepSeek-R1-0528模型生成响应,显著推动了大型语言模型在代码推理与自动化修复方面的性能边界,为相关领域的研究与应用提供了坚实的数据基础。
当前挑战
该数据集致力于应对软件工程中自动化代码修复的复杂性挑战,其核心问题在于如何使模型精准理解代码上下文、识别潜在缺陷并生成符合逻辑的正确修复方案。构建过程中的主要挑战包括:首先,需从多个异构数据源中筛选高质量样本,并依据任务难度进行分级,以确保训练数据的多样性与有效性;其次,为避免评估数据污染,必须严格排除与SWE-Bench_Verified评估集重叠的仓库实例,这对数据清洗与去重提出了较高要求。此外,数据集的构建还需平衡不同子任务(如定位、修复与测试生成)的数据分布,以支持模型在多任务学习中的稳定优化。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,Nemotron-Cascade-SFT-SWE数据集为代码修复任务提供了强化学习的训练基础。其经典使用场景集中于监督微调阶段,通过整合多个高质量代码修复基准,如SWE-Bench-Train与SWE-Fixer-Train,构建了涵盖代码定位、修复及测试用例生成的综合任务框架。研究人员利用该数据集训练大规模语言模型,以系统化地处理真实世界软件仓库中的缺陷报告,从而提升模型在复杂代码推理场景下的精确性与泛化能力。
解决学术问题
该数据集致力于解决软件工程中自动化代码修复的核心学术挑战,包括如何准确识别代码缺陷位置、生成语义正确的修补方案以及自动验证修复效果。通过引入多阶段任务设计与严格的数据去污染策略,它有效缓解了模型在评估集上的数据泄露问题,为衡量代码修复模型的真实性能提供了可靠基准。其意义在于推动了智能编程助手从简单代码生成向复杂软件维护任务的演进,为自动化软件质量保障研究奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作。例如,基于agentless mini框架的代码修复方法被广泛采纳,而使用DeepSeek-R1等模型生成响应则启发了后续的推理增强技术。相关技术报告详细阐述了数据构建与模型训练策略,为社区提供了可复现的基准。此外,数据集整合的多个来源如SWE-Smith与R2E-Gym,也促进了跨基准的代码修复评估范式的统一与演进。
以上内容由遇见数据集搜集并总结生成



