Nemotron-RL-Agentic-SWE-Pivot-v1

Name: Nemotron-RL-Agentic-SWE-Pivot-v1
Creator: NVIDIA
Published: 2026-03-12 08:11:36
License: 暂无描述

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-Agentic-SWE-Pivot-v1

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-RL 数据集提供了用于在 NeMo Gym 的 OpenHands 环境中训练和验证现实世界软件工程代理的 GitHub 问题。该数据集是对 SWE-Gym、R2E-Gym 和 SWE-Bench-Verified 数据集的重构版本，以支持 NeMo Gym 输入格式。数据集包含 6436 个训练样本，具有两个顶级特征（responses_create_params 和 agent_ref），训练数据大小约为 4.25GB。该数据集作为 NVIDIA NeMo Gym 的一部分发布，旨在用于大型语言模型（LLMs）的后训练。数据集采用 Creative Commons Attribution 4.0 International (CC-BY 4.0) 许可，适用于商业用途。

提供机构：

NVIDIA

创建时间：

2026-03-06

搜集汇总

数据集介绍

构建方式

在软件工程智能体研究领域，Nemotron-RL-Agentic-SWE-Pivot-v1数据集通过系统化的重构流程构建而成。其核心数据源自SWE-Gym、R2E-Gym以及SWE-Bench-Verified等知名开源基准，经过专门适配以符合NeMo Gym强化学习环境的输入格式要求。这一自动化重构过程确保了数据与NVIDIA NeMo框架下训练环境的无缝兼容，为基于可验证奖励的强化学习提供了结构化的训练样本。数据集最终包含6436个训练样本，总规模约4.25GB，形成了包含responses_create_params与agent_ref两个顶层特征的标准格式。

使用方法

数据集主要配合NVIDIA开源的NeMo Gym框架使用，旨在对大型语言模型进行后训练阶段的强化学习微调。开发者需首先配置NeMo Gym环境，随后将数据集加载至框架中，通过OpenHands环境模拟软件工程任务交互。训练过程中，模型根据数据集中提供的GitHub问题上下文生成解决方案，环境则基于可验证的奖励信号提供反馈，以此迭代优化模型策略。该流程支持从原始问题到代码修改的端到端训练，适用于培养模型在自动化代码维护、缺陷修复等复杂任务上的实际部署能力。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码修复与任务执行已成为前沿研究方向。Nemotron-RL-Agentic-SWE-Pivot-v1数据集由NVIDIA公司于2026年3月11日发布，作为NeMo Gym强化学习框架的核心组成部分，旨在训练能够处理真实世界软件工程任务的智能体。该数据集整合了SWE-Gym、R2E-Gym及SWE-Bench-Verified等知名资源，通过重构适配NeMo Gym输入格式，专注于解决GitHub问题追踪中的自动化代码修改与验证挑战。其设计支撑了NVIDIA Nemotron系列模型的发展，推动了基于可验证奖励的强化学习在软件工程自动化中的应用，为大规模语言模型在专业领域的精调提供了关键基础设施。

当前挑战

该数据集致力于应对软件工程自动化中智能体训练的复杂性挑战，核心在于使模型能够准确理解自然语言描述的GitHub问题，并生成符合上下文的代码修改方案。构建过程中的主要困难源于多源数据集的异构性整合，需将不同格式的代码库与问题描述统一转换为NeMo Gym兼容的结构，同时保持任务语义的完整性与可执行性。此外，确保强化学习环境中的奖励信号可验证且稳定，以指导模型在代码生成与修复过程中实现可靠优化，亦是数据集设计的关键技术壁垒。

常用场景

经典使用场景

在软件工程智能体研究领域，Nemotron-RL-Agentic-SWE-Pivot-v1数据集为训练和验证基于强化学习的代码修复代理提供了核心支持。该数据集整合了来自GitHub的真实问题报告，通过OpenHands环境模拟实际开发场景，使大型语言模型能够学习如何自动诊断并修复软件缺陷。研究人员利用这一数据集，可以构建出能够理解复杂代码上下文、执行精准编辑操作的智能体，从而推动自动化软件维护技术的发展。

解决学术问题

该数据集主要解决了软件工程中自动化代码修复的学术挑战，特别是如何让AI系统在真实、动态的代码库环境中进行有效的决策与操作。它通过提供结构化的强化学习训练环境，帮助研究者探索从可验证奖励中学习的新范式，突破了传统静态数据训练的局限性。其意义在于为评估智能体在复杂任务中的泛化能力与鲁棒性建立了基准，促进了软件工程与强化学习交叉领域的理论进展与方法创新。

实际应用

在实际应用中，该数据集能够驱动开发智能编码助手与自动化DevOps工具，显著提升软件开发的效率与质量。例如，企业可基于此类训练出的模型构建内部代码审查系统，自动识别并修复常见漏洞或性能问题。它也为持续集成与部署管道注入了智能化能力，能够实时响应项目中的新问题报告，减少人工干预，加速软件迭代周期，在大型软件项目的维护与升级中展现出重要价值。

数据集最近研究