nemotron-gym-math-stack-overflow

Name: nemotron-gym-math-stack-overflow
Creator: LAION eV
Published: 2026-05-16 23:26:32
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-math-stack-overflow

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是nvidia/Nemotron-RL-math-stack_overflow数据集的Harbor格式转换版本，属于NVIDIA NeMo-Gym集合的一部分。它是一个专门为强化学习（RL）任务设计的数学问题数据集，侧重于可验证奖励场景。数据集规模在10万到100万样本之间。每个数据样本包含两个字段：path是一个确定性的短标识符字符串，格式为<家族>-<SHA256哈希前12位>.tar.gz；task_binary是一个经过gzip压缩的tar归档文件，封装了一个完整的Harbor任务。任务包内部遵循标准Harbor布局，包括instruction.md（提示文本）、environment/Dockerfile（运行环境定义）、tests/目录下的验证脚本（如test.sh、verifier.py、verifier_data.json）、metadata.json（元数据）和task.toml（配置参数）。验证器家族为math_boxed，其核心逻辑是从模型响应中提取oxed{...}格式的答案，并使用SymPy与标准答案进行比较。数据转换过程由OpenThoughts-Agent项目中的工具完成，设计上确保了安全性，例如避免数据内容插值到代码中、对输入进行严格验证和清理，并生成确定性的任务包。该数据集适用于训练和评估强化学习智能体在解决数学问题（可能源自Stack Overflow风格）并接受自动验证的环境中的表现。

This dataset is a Harbor-formatted converted version of the nvidia/Nemotron-RL-math-stack_overflow dataset, and it is part of the NVIDIA NeMo-Gym collection. It is a mathematical problem dataset specifically designed for reinforcement learning (RL) tasks, focusing on verifiable reward scenarios. The dataset contains between 100,000 and 1,000,000 samples. Each data sample consists of two fields: 1. `path`: a deterministic short identifier string formatted as `<family>-<first 12 characters of the SHA256 hash>.tar.gz`; 2. `task_binary`: a gzip-compressed tar archive that encapsulates a complete Harbor task. The internal structure of the task package follows the standard Harbor layout, including: `instruction.md` (prompt text), `environment/Dockerfile` (runtime environment definition), validation scripts within the `tests/` directory (such as `test.sh`, `verifier.py`, `verifier_data.json`), `metadata.json` (metadata), and `task.toml` (configuration parameters). The validator family is `math_boxed`, whose core logic is to extract answers in the oxed{...} format from model responses, and compare them with standard answer keys using SymPy. The data conversion process was implemented using tools from the OpenThoughts-Agent project, with security safeguards incorporated into its design: preventing data content from being interpolated into code, strictly validating and cleaning input data, and generating fully deterministic task packages. This dataset is suitable for training and evaluating the performance of reinforcement learning agents when solving mathematical problems (potentially of Stack Overflow-style) in environments that support automatic verification.

提供机构：

LAION eV

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA发布的Nemotron-RL-math-stack_overflow，经Harbor格式转换而来。转换过程由OpenThoughts-Agent项目中的数据适配器完成，采用安全优先的设计理念：所有任务内容均以JSON格式存储于verifier_data.json中，避免直接嵌入脚本或命令，有效防止注入攻击。基础镜像采用固定版本的python:3.11-slim-bookworm，且pip依赖通过严格的正则允准列表验证。文本字段经过C0/C1控制字符清洗、长度限制及路径安全性校验，最终生成确定性的tar.gz压缩包，确保可复现性。

特点

数据集专为强化学习场景设计，提供可验证奖励信号。每个样本包含完整的Harbor任务结构，包括指令文件instruction.md、环境配置Dockerfile、验证器入口tests/test.sh及实现tests/verifier.py，以及元数据metadata.json和任务配置task.toml。验证器家族采用math_boxed方法，通过提取oxed{}中的内容，利用SymPy与标准答案进行等价比较，实现对数学推理结果的自动化、确定性评判。数据集规模介于10万至100万条之间，适合大规模RL训练。

使用方法

用户可通过HuggingFace Datasets库直接加载数据集，使用load_dataset函数获取训练集，每条记录包含任务路径path和二进制任务包task_binary。若要运行单个任务，可先解压task_binary至本地目录，再通过Harbor命令行工具执行，例如harbor run -t <任务目录> -e daytona或-e docker。该数据集兼容标准Harbor工作流，支持多种执行环境，便于集成到现有的RL训练管线中。

背景与挑战

背景概述

在大规模强化学习与数学推理交叉领域，可验证奖励信号的构建是提升智能体泛化能力的关键瓶颈。为此，LAION团队与NVIDIA合作，于2025年推出nemotron-gym-math-stack-overflow数据集，源于NVIDIA的Nemotron-RL-math-stack_overflow及NeMo-Gym项目，并由LAION进行Harbor格式安全转换。该数据集聚焦于从Stack Overflow数学问答中提取可验证的数学推理任务，旨在为强化学习系统提供结构化、可重复验证的奖励函数，推动数学逻辑推理与程序化验证的深度融合。其影响力体现在为开源社区提供了一种安全、确定性的任务构造范式，尤其适用于需要精确奖励信号的数学推理与代码生成场景。

当前挑战

该数据集面临的核心挑战包括：其一，领域问题层面，数学推理任务的自动验证长期受困于符号运算的歧义性与结果表达多样性，需依赖SymPy等工具对oxed{...}格式进行精确提取与比较，这对复杂数学表达式的解析鲁棒性提出严苛要求。其二，构建过程中，从非结构化Stack Overflow数据到标准Harbor任务的转换需解决多重安全与一致性难题，包括避免用户生成内容中的控制字符注入、确保所有数据流纯净JSON化而不片段嵌入脚本、以及构建确定性tarball以保障再现性。此外，任务多样性平衡与跨领域数学知识覆盖的完整性也是持续挑战。

常用场景

经典使用场景

在强化学习与数学推理交叉领域中，Nemotron-Gym-Math-Stack-Overflow数据集以Harbor格式封装了来自Stack Overflow的数学问题及其标准答案，为训练具备可验证奖励的智能体提供了标准化的评测环境。每个任务包含独立的Docker容器、测试脚本与验证器，确保了实验环境的可复现性与安全性。该数据集最经典的使用场景是作为数学推理强化学习任务的基准平台，研究者可通过Harbor工具加载任务，让智能体在隔离环境中生成答案，并自动获得基于符号验证的奖励信号，从而有效驱动策略优化。

实际应用

在实际应用中，该数据集可被用于构建自动化的编程辅助与数学教育工具，例如开发能够逐步推导并验证解答的智能辅导系统。依托于Harbor格式的容器化任务封装，企业或研究机构能够将其部署于持续集成流水线中，对AI模型的数学推理能力进行批量测试与回归验证。此外，该数据集还可作为在线学习平台的后端评测模块，实时评估用户或模型在微积分、代数等领域的解题正确性，为自适应学习系统提供可靠的反馈依据，从而提升教育产品的智能化水平与用户体验。

衍生相关工作

该数据集源于NVIDIA发布的NeMo-Gym系列，并经过安全加固与格式转换后形成衍生版本。其核心贡献在于将原始的Nemotron-RL-math-stack_overflow数据转化为标准化的Harbor任务格式，并引入了符号比较验证器家族。这一工作直接支持了OpenThoughts-Agent等开源框架对数学推理强化学习的研究，同时为后续基于可验证奖励的离线训练、多任务泛化以及安全执行环境设计等方向提供了可复用的基础设施。此外，该数据集催生了关于如何构建鲁棒验证器、防止奖励攻击以及提升数学表达式解析准确性的系列探索，成为连接自然语言推理与符号计算的桥梁性资源。

以上内容由遇见数据集搜集并总结生成