five

nemotron-gym-reasoning-gym-v2

收藏
Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-reasoning-gym-v2
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是NVIDIA Nemotron-RL-ReasoningGym-v1数据集的Harbor格式转换版本,专为强化学习任务设计,特别是用于推理相关任务的验证。数据规模在10,000到100,000条之间,每条数据包含两个字段:path(确定性短ID,格式为<family>-<sha256[:12]>.tar.gz)和task_binary(包含完整Harbor任务的gzip压缩tar文件)。压缩包内遵循Harbor任务布局,包括instruction.md(代理提示)、环境Dockerfile、测试验证脚本(test.sh、verifier.py)、验证器输入数据(verifier_data.json)、元数据(metadata.json)和任务配置(task.toml)。数据集在转换过程中注重安全性:内容不插入shell、Python或Dockerfile源代码,所有值通过JSON文件传递;基础镜像固定;文本字段去除控制字符;压缩包路径防攻击;且压缩包具有确定性以确保可复现性。验证器家族为reasoning_gym,委托上游推理健身房评分器并包含标准化匹配回退机制。v2版本修复了沙箱构建失败问题(通过安装编译工具链)和验证器API不匹配问题(使用正确的公共API)。数据集适用于Harbor框架运行推理任务,并支持通过Hugging Face datasets库进行加载和任务提取。

This dataset is a Harbor format conversion of the NVIDIA Nemotron-RL-ReasoningGym-v1 dataset, designed for reinforcement learning tasks, specifically for validating reasoning-related tasks. The data scale ranges from 10K to 100K entries, with each row containing two fields: path (a deterministic short ID in the format <family>-<sha256[:12]>.tar.gz) and task_binary (a gzip-compressed tar file containing the complete Harbor task). The compressed package follows the Harbor task layout, including instruction.md (agent prompt), environment Dockerfile, test verification scripts (test.sh, verifier.py), verifier input data (verifier_data.json), metadata (metadata.json), and task configuration (task.toml). The conversion process incorporates security features: no insertion of shell, Python, or Dockerfile source code, with all values passed via JSON files; fixed base images; removal of control characters from text fields; attack-resistant compressed package paths; and deterministic compressed packages for reproducibility. The verifier family is reasoning_gym, delegating to upstream reasoning gym scorers with a standardized fallback matching mechanism. The v2 version fixes sandbox build failures (by installing the compilation toolchain) and verifier API mismatches (using the correct public API). The dataset is suitable for running reasoning tasks in the Harbor framework and supports loading and task extraction via the Hugging Face datasets library.
提供机构:
LAION eV
创建时间:
2026-05-18
搜集汇总
数据集介绍
main_image_url
构建方式
nemotron-gym-reasoning-gym-v2 数据集源自 NVIDIA 的 Nemotron-RL-ReasoningGym-v1,经由 Harbor 格式转换而来。该转换过程由 OpenThoughts-Agent 中的 data/nemotron_gym 适配器执行,严格遵循安全构建原则:所有数据内容均通过 tests/verifier_data.json 文件以 JSON 格式传递,避免直接注入到 shell、Python 或 Dockerfile 源码中。基础镜像采用名称固定的 python:3.11-slim-bookworm,pip 依赖经过严格白名单验证。文本字段已去除控制字符并限制长度,压缩包路径经过遍历、空字符和绝对路径攻击防护。最终生成的压缩包具备确定性(条目排序、mtime 归零、uid/gid 归零),确保字节级可复现。每个样本包含 instruction.md、Dockerfile、测试脚本、验证器实现及元数据等标准 Harbor 任务组件。
特点
该数据集专为强化学习场景设计,容纳了超过一万条可验证奖励的推理任务。每项任务均以 Harbor 格式封装,提供标准化的验证器入口,通过 tests/verifier.sh 脚本将奖励写入统一路径。验证器家族基于 reasoning_gym 的评分函数,并保留归一化精确匹配作为回退机制。数据集结构天然支持安全隔离,所有任务内容在独立 Docker 容器中运行,杜绝数据注入风险。v2 版本修复了 v1 中因基础镜像缺乏 C 工具链导致的 pycosat 和 cellpylib 编译失败问题,同时将验证器调用接口更新为 reasoning_gym 的公共 API,确保与上游版本兼容。
使用方法
用户可通过 HuggingFace Datasets 库直接加载数据集,利用 load_dataset 方法获取训练集,每个样本包含路径标识和压缩包二进制数据。要执行具体任务,需先解压二进制内容至临时目录,再利用 Harbor 工具运行任务:通过 harbor run 命令指定任务目录和执行环境(如 docker 或 daytona)。Harbor 会自动处理容器化执行、验证器调用和奖励输出。该数据集还支持编程式访问,用户可遍历样本,提取 instruction.md、Dockerfile 和测试脚本等组件,用于自定义的强化学习训练流程或验证环境搭建。
背景与挑战
背景概述
在大规模强化学习与可验证奖励机制的研究浪潮中,NVIDIA 于2024年推出了 Nemotron-RL-ReasoningGym-v1 数据集,旨在为推理任务提供结构化的强化学习训练环境。该数据集由 NVIDIA 研究团队主导构建,隶属 NeMo-Gym 系列,核心研究问题在于如何通过可验证的奖励信号驱动智能体在数学、逻辑等推理任务中实现自我提升。作为其衍生版本,nemotron-gym-reasoning-gym-v2 由 LAION 社区基于 Harbor 格式进行安全转换,保留了原始数据集的任务多样性与可复现性。该数据集的发布为强化学习社区提供了标准化的推理任务基准,推动了可验证奖励机制在复杂推理场景中的应用与发展。
当前挑战
该数据集所解决的领域问题集中于强化学习中的稀疏奖励与奖励欺骗挑战,通过引入 reasoning_gym 评分器及标准化匹配回退机制,确保智能体获得的奖励信号真实反映其推理能力。在构建过程中,团队面临两大技术挑战:一是基础镜像缺乏 C 工具链导致 pip 无法编译依赖包(如 pycosat 和 cellpylib),使得 v1 版本基础设施成功率为零;二是上游库 API 变更引发的 verifier 接口不匹配问题,需将过时的 get_scorer 调用替换为 get_score_answer_fn,并保留归一化精确匹配回退机制。此外,数据安全亦是核心挑战,构建团队采用严格的白名单验证、路径遍历防御及确定性打包策略,确保转换过程免受注入攻击与数据篡改威胁。
常用场景
经典使用场景
nemotron-gym-reasoning-gym-v2数据集在强化学习领域扮演着关键角色,尤其适用于训练和评估具备可验证奖励机制的推理智能体。该数据集将NVIDIA的Nemotron-RL-ReasoningGym-v1转换为Harbor格式,每一行记录包含一个封装完整的任务包,内含指令提示、Docker环境、验证器脚本及元数据等组件。研究者可利用该数据集构建基于代码执行或数学推导的强化学习环境,通过内置的验证器对智能体的输出进行确定性评分,从而在推理任务中实现精准的奖励信号反馈。这种设计使得该数据集成为研究基于可验证奖励的强化学习算法(如PPO、GRPO)的理想基准。
衍生相关工作
基于nemotron-gym-reasoning-gym-v2数据集,衍生了一系列具有影响力的研究工作。作为NVIDIA NeMo-Gym集合的核心组件,它启发了多种强化学习算法在推理任务上的适配与优化,例如将经典策略梯度算法与可验证奖励机制结合的改进方案。数据集的Harbor格式转换方法本身已成为一种标准化工作流,推动了OpenThoughts-Agent等项目中安全、可复现的推理任务构建流程的形成。此外,该数据集的验证器家族设计为不同推理任务(如数学证明、逻辑谜题)提供了统一的评测框架,催生了多个关于归纳推理、因果推断等高级认知能力的学习方法研究。
数据集最近研究
最新研究方向
该数据集聚焦于强化学习领域中可验证奖励机制的推理任务标准化与沙箱安全执行,是NVIDIA NeMo-Gym生态的关键组件。前沿研究围绕如何构建确定性、可复现的强化学习环境展开,通过Harbor格式封装任务,确保奖励验证器与推理流程的分离与安全。近期热点在于v2版本修复了沙箱构建失败与验证器API不匹配的痛点,为大规模分布式强化学习训练提供了稳定基石,推动了基于推理的奖励设计在复杂决策场景中的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作