Nemotron-SFT-SWE-v2
收藏Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-SFT-SWE-v2
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-SWE-v2 是一个专为提升大型语言模型在软件工程任务(SWE-Bench 风格任务)上的性能而设计的指令调优数据集。该数据集包含通过 OpenHands 框架收集的代理轨迹和针对特定子任务(如代码定位、代码修复和测试生成)的无代理 SWE 子集。数据集总规模约为 256,254 个样本,存储量约为 17GB,采用 JSONL 格式。数据集适用于构建自主软件工程代理和代码辅助工具的 LLM 工程师和研究团队,可用于监督微调、模型蒸馏以及代理策略的基准测试和调试。数据集采用混合自动化和合成方法收集和标注,包含文本和元数据。许可证包括 Creative Commons Attribution 4.0 International (CC-BY 4.0)、Apache 2.0、MIT、BSD-3 和 BSD-2。
提供机构:
NVIDIA
创建时间:
2026-03-09
搜集汇总
数据集介绍
构建方式
在软件工程智能体研究领域,数据集的构建方法直接影响模型对复杂任务的泛化能力。Nemotron-SFT-SWE-v2采用混合合成策略,通过OpenHands框架收集了约4.6万条具身智能体轨迹,模拟了从问题理解到代码修复的完整交互过程。同时,数据集还包含了超过20万条无智能体辅助的监督微调样本,这些样本由先进模型DeepSeek-R1-0528针对代码定位、修复及测试生成等子任务生成多候选输出,确保了任务覆盖的广度与深度。所有数据均基于SWE-Gym和R2E-Gym-Subset中的真实问题陈述构建,形成了结构化的JSONL格式文本序列。
特点
该数据集的核心特征体现在其针对软件工程基准任务的专门化设计。它融合了智能体轨迹与无智能体子任务数据,为模型提供了从宏观决策到微观代码操作的多层次学习素材。智能体轨迹部分完整记录了工具使用、代码导航与编辑的序列化步骤,而无智能体部分则聚焦于代码定位、补丁生成与测试用例创建等关键子任务,并附带了任务特定的结构化输出。数据规模达到25.6万条样本,约17GB存储量,且采用CC-BY-4.0等多重开源许可,确保了其在商业与研究场景中的可用性。
使用方法
本数据集主要面向构建自主软件工程智能体与代码助手的研发团队。使用者可将其用于大规模语言模型的监督微调与知识蒸馏,以提升模型在SWE-Bench风格任务中解析问题、规划多步骤工具使用、导航代码库并实施修复的能力。数据集中的智能体轨迹可用于评估与调试智能体策略,增强模型对代码仓库的感知推理,而无智能体样本则适用于训练模型执行精准的代码编辑与测试生成。在实际应用中,建议结合相关学术文献中提出的评估管道,以系统化验证模型在回归无碍代码编辑行为上的鲁棒性。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码修复与测试生成已成为提升开发效率的关键研究方向。Nemotron-SFT-SWE-v2数据集由NVIDIA公司于2025年12月创建,旨在通过监督微调增强大型语言模型在SWE-Bench风格任务上的性能。该数据集整合了基于OpenHands框架收集的约4.6万条智能体轨迹,以及针对代码定位、修复与测试生成等子任务的约21万条无智能体数据,核心研究聚焦于构建能够理解真实问题陈述、规划多步骤工具使用并实现稳健代码编辑的自主软件工程智能体。其设计参考了SWE-Gym、R2E-Gym等前沿环境,为学术界与工业界推动代码感知推理与回归无痕编辑提供了重要数据基础。
当前挑战
该数据集致力于解决软件工程智能体在真实代码库环境中执行复杂任务时面临的挑战,包括准确解析自然语言问题描述、在庞大代码库中精确定位相关文件、生成符合语义与语法规范的修复补丁,以及创建高效且覆盖全面的单元测试。在构建过程中,挑战主要体现在数据合成与标注的复杂性上:需利用Qwen3-Coder-480B-A35B-Instruct等先进模型生成高质量轨迹,同时通过DeepSeek-R1-0528为每个提示生成多个候选输出以确保多样性;此外,还需协调不同子任务(如代码定位与测试生成)的数据格式一致性,并处理来自SWE-Gym等来源的问题陈述的异构性,以构建兼具规模与精确性的训练资源。
常用场景
经典使用场景
在软件工程智能化领域,Nemotron-SFT-SWE-v2数据集为大型语言模型的指令微调提供了核心资源。其经典应用场景聚焦于SWE-Bench风格的任务,即模拟真实软件开发环境中的问题修复流程。通过整合包含多步工具使用的智能体轨迹与针对代码定位、修复及测试生成的原子任务数据,该数据集能够系统性地训练模型理解复杂问题陈述、规划代码库导航路径并执行精准的代码编辑操作。这种设计使得模型能够学习从问题识别到解决方案实施的完整推理链条,为构建自主软件工程代理奠定了数据基础。
解决学术问题
该数据集致力于解决软件工程智能化研究中的若干关键挑战。首要问题在于如何让大型语言模型具备处理真实世界代码库中复杂、多步骤任务的能力,而非局限于孤立的代码片段生成。通过提供结构化的智能体轨迹,数据集引导模型学习任务分解与工具调用的策略,从而提升其在代码定位、缺陷修复和测试生成等子任务上的性能。此外,数据集的设计有助于探索模型在保持代码功能一致性、避免回归错误方面的稳健性,为研究可验证、可复现的自动化代码编辑行为提供了标准化评估基准。
衍生相关工作
围绕该数据集,学术界与工业界已衍生出一系列重要的相关研究工作。其数据构建本身便依托于OpenHands框架、SWE-Gym和R2E-Gym等开源环境与基准测试,这些工作共同构成了一个用于训练和评估软件工程代理的生态系统。基于此数据集训练的模型,能够进一步推动如SWE-reBench等去污染评估管道的发展,确保对代理性能的公正衡量。同时,数据集所蕴含的多步任务解决轨迹,也为研究更复杂的强化学习与验证器训练方法,例如在Nemotron-Cascade等工作中探索的级联推理策略,提供了宝贵的经验数据与灵感来源。
以上内容由遇见数据集搜集并总结生成



