nemotron-gym-reasoning-gym

Name: nemotron-gym-reasoning-gym
Creator: LAION eV
Published: 2026-05-16 23:27:49
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-reasoning-gym

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是NVIDIA Nemotron-RL-ReasoningGym-v1数据集的Harbor格式转换版本，属于NeMo-Gym集合的一部分，专为强化学习任务设计，特别聚焦于推理任务，并包含可验证的奖励机制。数据规模在1万到10万样本之间，语言为英语。每个数据样本包含两个字段：`path`字段是一个确定性的短ID字符串，格式为`<family>-<sha256[:12]>.tar.gz`；`task_binary`字段是一个gzip压缩的tar包，其中包含完整的Harbor任务。tar包内遵循标准Harbor任务布局，包括：给智能体的提示（instruction.md）、基于python:3.11-slim-bookworm的Docker环境配置（environment/Dockerfile）、验证器入口点脚本和实现（tests/test.sh和tests/verifier.py）、验证器输入数据（tests/verifier_data.json）、元数据（metadata.json）以及任务配置（task.toml）。数据转换过程确保了安全性，数据内容不会插值到shell、Python或Dockerfile源代码中，所有值通过JSON文件传递，基础镜像固定，文本字段经过控制字符清理和长度限制，tar包路径经过验证以防止路径遍历等攻击，且生成的是确定性tar包以确保可复现性。验证器家族为“reasoning_gym”，委托给上游的reasoning_gym评分器，并带有标准化匹配回退机制。该数据集适用于基于Harbor框架的强化学习智能体训练和评估，特别是在需要可验证奖励的推理任务场景中。

This dataset is a Harbor format conversion version of the NVIDIA Nemotron-RL-ReasoningGym-v1 dataset, part of the NeMo-Gym collection. It is designed for reinforcement learning tasks, specifically focusing on reasoning tasks with verifiable reward mechanisms. The data scale ranges from 10,000 to 100,000 samples, and the language is English. Each data sample contains two fields: the `path` field is a deterministic short ID string in the format `<family>-<sha256[:12]>.tar.gz`; the `task_binary` field is a gzip-compressed tar package containing the complete Harbor task. The tar package follows the standard Harbor task layout, including: prompts for the agent (instruction.md), Docker environment configuration based on python:3.11-slim-bookworm (environment/Dockerfile), verifier entry point scripts and implementation (tests/test.sh and tests/verifier.py), verifier input data (tests/verifier_data.json), metadata (metadata.json), and task configuration (task.toml). The data conversion process ensures security, with no data content interpolated into shell, Python, or Dockerfile source code; all values are passed through JSON files, the base image is fixed, text fields are cleaned of control characters and length-limited, tar package paths are validated to prevent path traversal attacks, and deterministic tar packages are generated for reproducibility. The verifier family is reasoning_gym, delegated to the upstream reasoning_gym scorer with standardized matching fallback mechanisms. This dataset is suitable for training and evaluating reinforcement learning agents based on the Harbor framework, particularly in scenarios requiring verifiable rewards for reasoning tasks.

提供机构：

LAION eV

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

nemotron-gym-reasoning-gym 数据集是基于 NVIDIA 的 Nemotron-RL-ReasoningGym-v1 构建的衍生版本，采用 Harbor 格式进行转换，以实现强化学习环境下可验证奖励任务的安全执行。数据集的构建遵循安全优先的原则，每一条记录包含一个确定性的短 ID 和经过 gzip 压缩的 tar 包，压缩包内严格按照 Harbor 任务布局组织：其中包括指令文件 instruction.md、基于 python:3.11-slim-bookworm 的 Dockerfile 环境配置、验证器入口脚本 test.sh 及其实现 verifier.py、以 JSON 格式存储的验证器输入数据 verifier_data.json，以及记录来源与元信息的 metadata.json 和任务配置 task.toml。转换过程由 OpenThoughts-Agent 项目中的适配器自动完成，确保所有数据集内容仅通过 JSON 文件在运行时传递，绝不插入到 Shell、Python 或 Dockerfile 源码中，从而杜绝代码注入风险。

使用方法

使用 nemotron-gym-reasoning-gym 数据集时，用户可通过 HuggingFace datasets 库直接加载，调用 load_dataset 函数即可获取训练集，每一条记录包含任务路径和二进制任务包。在 Harbor 框架下运行单个任务时，需先将 tar 包解压到指定目录，再通过 harbor run 命令配合 Docker 或 Daytona 执行环境启动任务。具体操作为：利用 Python 脚本从数据集中读取二进制内容，经 gzip 解压和 tarfile 提取至本地目录，随后调用 Harbor 命令行工具运行该任务。这种设计使得研究人员能够便捷地在标准化环境中测试和部署强化学习任务，同时享受数据格式带来的安全性和可复现性保障。

背景与挑战

背景概述

在强化学习与推理任务交叉领域，数据集的标准化与可验证性成为推动模型泛化能力的关键瓶颈。由LAION与NVIDIA团队合作转化的nemotron-gym-reasoning-gym数据集，于2024年基于NVIDIA NeMo-Gym系列中的Nemotron-RL-ReasoningGym-v1构建，旨在为强化学习智能体提供结构化的可验证推理任务。该数据集通过Harbor格式封装，每个样本包含独立的环境配置、指令与可执行验证器，确保奖励信号的确定性。其核心研究问题在于，如何将复杂推理问题转化为可重复、安全且可审计的强化学习训练样本，从而支撑开源社区对可验证奖励驱动的RL算法研究。数据集一经推出，即成为验证强化学习推理能力的重要基准，促进了安全自动化的任务构建范式。

当前挑战

该数据集首先应对的领域挑战是强化学习中推理任务奖励信号的稀疏性与不可靠性，传统方法依赖人工或近似评估，难以保证奖励的可验证性与一致性。nemotron-gym-reasoning-gym通过封装确定性验证器与严格的安全校验流水线，解决了这一问题，但仍面临任务多样性的覆盖度不足、验证器设计对复杂逻辑的泛化能力有限等挑战。构建过程中的挑战包括确保数据转换的零插值安全策略、控制字符与路径遍历攻击的防护、以及跨平台的可重复性——即通过固定时间戳与排序条目实现字节级确定性，但这也增加了任务定制的复杂性和计算资源开销。

常用场景

经典使用场景

该数据集作为强化学习领域中可验证奖励信号的重要来源，被广泛用于训练和评估智能体在复杂推理任务中的表现。研究人员可将其直接集成至Harbor环境，通过预定义的指令、验证器和环境配置，构建结构化的训练闭环，为基于奖励的强化学习算法提供标准化、可复现的测试基准。

解决学术问题

该数据集解决了强化学习研究中缺乏高质量、可验证、可复现推理任务样本的问题。传统人工标注奖励往往存在噪声大、成本高、难以规模化等局限，而该数据集通过嵌入确定性验证器与标准化测试流程，为策略梯度、逆强化学习等算法的训练提供了可靠的奖励信号，显著推动了可验证奖励信号在学术界的研究与应用。

实际应用

在实际应用中，该数据集可赋能智能体在数学推理、符号计算、代码生成等需要精确验证能力的领域中进行高效训练。企业研发团队可借助其标准化的容器化任务配置和Harbor运行框架，在云端或本地环境中快速完成模型的强化学习微调，从而提升实际部署中的推理准确性与稳定性。

数据集最近研究