five

nemotron-gym-math-openmathreasoning

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-math-openmathreasoning
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是原始数据集nvidia/Nemotron-RL-math-OpenMathReasoning的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的一部分。它专为强化学习任务设计,核心内容围绕数学推理问题。数据采用Harbor任务格式封装,每条记录包含两个字段:`path`(格式为`<family>-<sha256[:12]>.tar.gz`的确定性短ID字符串)和`task_binary`(存储完整Harbor任务的gzip压缩tar二进制数据)。每个任务包内部遵循标准Harbor布局,包含:给智能体的文本提示(`instruction.md`)、基于`python:3.11-slim-bookworm`的Docker环境配置、验证脚本(`tests/test.sh`, `tests/verifier.py`)、验证输入数据(`tests/verifier_data.json`)、记录来源数据集、行索引和任务家族等信息的元数据(`metadata.json`),以及CPU/内存/超时等默认配置(`task.toml`)。验证器采用math_boxed家族,其工作原理是从模型输出中提取oxed{}格式的数学表达式,并使用sympy库与标准答案进行比较。数据集转换过程强调安全性,确保数据集内容不会插入shell、Python或Dockerfile源代码,所有值通过JSON文件传递;基础镜像固定;进行输入验证和清理;并生成确定性的tarball以实现可复现性。数据集规模属于100K<n<1M类别,适用于训练和评估在数学推理环境中进行交互的强化学习智能体。

This dataset is a Harbor format conversion version of the original dataset nvidia/Nemotron-RL-math-OpenMathReasoning, belonging to the NVIDIA NeMo-Gym collection. It is specifically designed for reinforcement learning tasks, with core content revolving around mathematical reasoning problems. The data is encapsulated in the Harbor task format, with each record containing two fields: `path` (a deterministic short ID string in the format `<family>-<sha256[:12]>.tar.gz`) and `task_binary` (gzip-compressed tar binary data storing the complete Harbor task). Each task package internally follows the standard Harbor layout, including: text prompts for the agent (`instruction.md`), Docker environment configuration based on `python:3.11-slim-bookworm`, verification scripts (`tests/test.sh`, `tests/verifier.py`), verification input data (`tests/verifier_data.json`), metadata (`metadata.json`) recording source dataset, row index, and task family information, and default configurations for CPU/memory/timeout (`task.toml`). The verifier uses the math_boxed family, which works by extracting mathematical expressions in the oxed{} format from model outputs and comparing them with standard answers using the sympy library. The dataset conversion process emphasizes security, ensuring that dataset content does not insert shell, Python, or Dockerfile source code; all values are passed through JSON files; the base image is fixed; input validation and cleaning are performed; and deterministic tarballs are generated for reproducibility. The dataset scale falls into the 100K<n<1M category and is suitable for training and evaluating reinforcement learning agents interacting in mathematical reasoning environments.
提供机构:
LAION eV
创建时间:
2026-05-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称: laion/nemotron-gym-math-openmathreasoning
  • 许可证: CC-BY-4.0
  • 语言: 英语
  • 任务类别: 强化学习
  • 数据规模: 100K < n < 1M

数据格式

每个数据行包含以下列:

列名 类型 描述
path 字符串 确定性短ID(格式:<family>-<sha256[:12]>.tar.gz
task_binary 二进制 包含完整Harbor任务的gzip压缩tar包

Harbor任务布局

压缩包内部遵循Harbor的任务布局:

  • instruction.md — 给智能体的提示
  • environment/Dockerfile — 基于python:3.11-slim-bookworm基础镜像及任务依赖
  • tests/test.sh — 验证器入口(输出到/logs/verifier/reward.txt
  • tests/verifier.py — 验证器实现(内嵌、确定性)
  • tests/verifier_data.json — 每个任务的验证器输入(JSON格式,无代码注入)
  • metadata.json — 来源信息:源数据集、行索引、类别等
  • task.toml — 标准Harbor任务配置(CPU、内存、超时默认值)

验证器类别

math_boxed — 从oxed{…}中提取内容,使用SymPy与标准答案进行比较。

来源与衍生

本数据集是 nvidia/Nemotron-RL-math-OpenMathReasoning 的Harbor格式转换版本,属于NVIDIA的 NeMo-Gym集合

转换特点

  • 安全构建: 数据集内容从不注入到shell、Python或Dockerfile源码中,所有值通过tests/verifier_data.json(JSON格式)在运行时解析。
  • 基础镜像固定: 使用名称固定的python:3.11-slim-bookworm镜像,pip依赖经过严格白名单正则验证。
  • 文本字段处理: 移除C0/C1控制字符并对长度进行限制,tarball路径经过遍历/NUL/绝对路径攻击验证。
  • 确定性打包: tarball保证确定性(条目排序、mtime=0uid/gid=0),字节可复现。

使用示例

加载数据集: python from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-math-openmathreasoning", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

运行单个任务: bash python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-math-openmathreasoning", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/math-openmathreasoning-task") PY harbor run -t /tmp/math-openmathreasoning-task -e daytona # 或 -e docker

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于NVIDIA发布的Nemotron-RL-math-OpenMathReasoning,经Harbor格式转换而来。构建过程遵循安全优先原则:原始数据内容绝不嵌入Shell、Python或Dockerfile源码,所有验证器输入通过JSON文件(verifier_data.json)在运行时解析。基础镜像固定为python:3.11-slim-bookworm,依赖包经严格正则白名单校验。文本字段已清除C0/C1控制字符并限制长度,打包路径经过遍历攻击、空字符与绝对路径攻击的防御处理。最终生成的压缩包采用确定性归档(排序条目、mtime=0、uid/gid=0),确保字节可复现。
特点
该数据集专为强化学习中的可验证奖励设计,每个样本包含一个完整的Harbor任务包。核心特性在于其内置的数学验证器:采用math_boxed策略,从模型输出中提取oxed{}内容,并通过SymPy与标准答案进行比较以实现自动评分。数据集规模介于10万至100万条之间,每条记录包含确定性短ID和压缩的任务二进制数据。全任务结构包括指令文件、Docker环境配置、验证器实现及元数据,特别适合用于训练数学推理能力的强化学习场景。
使用方法
可通过HuggingFace Datasets库加载数据集,直接获取路径与二进制任务包。使用Harbor工具运行单个任务:先将二进制包解压至临时目录,再运行harbor run命令并指定运行时环境(如Daytona或Docker)。验证器会自动执行测试脚本并将奖励值写入/logs/verifier/reward.txt,便于集成到强化学习训练管线中。该数据集兼容OpenThoughts-Agent框架,适合作为数学推理任务的标准测试基准。
背景与挑战
背景概述
该数据集由LAION社区在NVIDIA发布的Nemotron-RL-math-OpenMathReasoning基础上转换而来,旨在为强化学习范式下的数学推理任务提供标准化验证环境。作为NVIDIA NeMo-Gym集合的衍生数据,其核心研究问题聚焦于如何将开放式数学解题过程转化为可自动化验证的强化学习任务,通过Harbor格式实现任务打包与安全执行。该数据集创建于2024年,依托OpenThoughts-Agent框架完成转换,重点服务于可验证奖励信号驱动的训练场景,对推动数学推理领域的强化学习研究具有重要参考价值。
当前挑战
当前面临的首要挑战是领域问题层面,数学推理任务中开放解法的多样性导致自动化验证困难,传统基于符号比较的oxed{}提取方法难以覆盖所有合理答案形式。构建过程中需解决:1) 原始数据到Harbor格式的安全转换,避免任意代码注入风险,采用严格的白名单机制和静态验证;2) 确保任务可复现性,通过确定性tarball打包(mtime归零、排序条目)消除构建噪声;3) 控制文本字段长度并清除控制字符,平衡数据完整性与环境容错性。
常用场景
经典使用场景
该数据集以Harbor格式封装了来自NVIDIA的数学推理任务,专为强化学习场景设计。每个样本包含完整的任务描述、验证环境与测试脚本,可用于训练智能体在可验证奖励信号下进行数学推理。研究者可加载数据集后,利用Harbor工具运行单个任务,评估模型在数学问题上的表现,尤其适合探索基于符号比较的奖励机制对推理能力的影响。
解决学术问题
该数据集解决了数学推理领域缺乏标准化、可复现的强化学习基准问题。传统方法难以在数学问题上实现自动奖励验证,而该数据集通过安全的容器化环境与确定性验证器,使得研究人员能够聚焦于算法创新而非环境搭建。其贡献在于桥接了大规模语言模型与严格数学推理之间的鸿沟,推动了可验证奖励在数学领域的研究进展。
衍生相关工作
该数据集源于NVIDIA的Nemotron-RL系列,后续衍生出多个相关研究方向。其Harbor格式转换由OpenThoughts-Agent项目实现,强调了安全性与确定性构建。相关工作包括基于可验证奖励的数学推理基准、容器化训练环境标准化,以及将符号比较集成到强化学习流程中的方法。这些工作共同构建了一个从数据到评估的闭环体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作