nemotron-gym-math-advanced-calculations-v2
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-math-advanced-calculations-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是nvidia/Nemotron-RL-math-advanced_calculations数据集的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的一部分,专门用于强化学习任务。数据集包含高级数学计算问题,要求智能体执行计算并输出结果。v2版本修复了v1中存在的关键问题:原始版本使用第一个简化值作为参考,但约60%的提示要求计算多个值,而验证器从输出文件中提取最后一个数值令牌,导致参考与代理实际输出不匹配。v2版本改为使用最后一个简化值作为参考,并强化了指令头,明确要求对于多值提示,计算所有表达式但只将最后一个写入答案文件。数据集中每条样本包含一个确定性短ID路径和一个gzip压缩的tar二进制任务包,包内遵循Harbor任务标准布局,包含指令文件、Docker环境、测试脚本、验证器及数据、元数据和任务配置文件。验证器采用数值比较方式,容差设置为1e-4。数据集规模在1,000到10,000条样本之间,语言为英语,适用于需要可验证奖励的强化学习训练场景。
This dataset is a Harbor-formatted converted version of the nvidia/Nemotron-RL-math-advanced_calculations dataset, and is part of the NVIDIA NeMo-Gym collection, specifically designed for reinforcement learning tasks. It comprises advanced mathematical calculation problems, where AI Agents are required to perform computations and output results. The v2 version fixes critical issues present in the v1 release: the original version utilized the first simplified value as the reference, yet approximately 60% of prompts require calculating multiple values, while the validator extracts the last numerical Token from the output file, resulting in a mismatch between the reference and the agent's actual output. The v2 version revises the reference to use the last simplified value, and strengthens the instruction header to explicitly mandate that for multi-value prompts, all expressions must be computed but only the final one should be written to the answer file. Each sample in the dataset includes a deterministic short ID path and a gzip-compressed tar binary task package, which follows the standard Harbor task layout, containing instruction files, Docker environments, test scripts, validators and their supporting data, metadata, and task configuration files. The validator employs numerical comparison with a tolerance set to 1e-4. The dataset contains between 1,000 and 10,000 samples, is in English, and is suitable for reinforcement learning training scenarios that require verifiable rewards.
提供机构:
LAION eV
创建时间:
2026-05-18
搜集汇总
数据集介绍

构建方式
该数据集源于NVIDIA发布的Nemotron-RL-math-advanced_calculations,经Harbor格式转换与修正形成。构建过程中,针对原始版本中因求解多值问题时参考值提取错误导致的低解决率(约2.5%)进行了关键修复:将验证器的参考值从首个简化值(sv[0])调整为最后一个简化值(sv[-1]),以匹配智能体自然输出的数值顺序。同时,强化了指令提示,要求智能体在多值场景下计算所有表达式但仅将最后一个结果写入指定文件。每个样本以Harbor任务格式打包为gzip压缩的tar包,包含指令文件、Docker环境、测试脚本、验证器及元数据等标准化组件。
特点
该数据集专为强化学习环境中的数学高级计算任务设计,包含超过1000个样本(1K < n < 10K)。其核心特点在于采用`numeric_compare`验证器家族,通过数值容差(绝对与相对容差均为1e-4)对模型输出与参考值进行精确比对,以评估求解正确性。数据集针对多值求解问题进行了专门优化,确保智能体输出与验证参考一致。此外,每个任务均封装为完整可执行的Harbor容器环境,提供了可复现的评测条件,并遵循CC-BY-4.0许可协议开放使用。
使用方法
该数据集主要用于强化学习模型的训练与评估,特别是在可验证奖励(verifiable-rewards)机制下。使用时,可直接加载Harbor格式的压缩包解包获取任务内容,通过`instruction.md`了解求解要求,借助`tests/verifier.py`与`tests/test.sh`对模型输出进行自动化验证。数据集中的`metadata.json`和`task.toml`提供了任务配置信息。推荐在NVIDIA NeMo-Gym框架下部署,通过`answer.txt`文件接收模型输出,并结合验证器计算奖励信号,从而驱动策略优化。
背景与挑战
背景概述
随着大规模语言模型在数学推理与问题求解领域不断发展,强化学习(Reinforcement Learning, RL)作为提升模型行为一致性与任务完成能力的核心范式,亟需高质量、可验证的基准数据集以驱动算法优化。在此背景下,NVIDIA 研究团队于近期推出了 nemotron-gym-math-advanced-calculations-v2 数据集,该数据集源自 NVIDIA 的 NeMo-Gym 系列,是 nvidia/Nemotron-RL-math-advanced_calculations 的 Harbor 格式转换版本,并经 v2 修复版优化。数据集聚焦于高级数学计算问题,涉及多变量求解、表达式化简等复杂推理任务,旨在为强化学习中的奖励建模与智能体训练提供可靠的数值比较验证环境。依托 NVIDIA 在 GPU 计算与 AI 基础设施上的深厚积累,该数据集对推动数学推理型 RL 智能体的研究具有重要支撑作用,其发布标志着可验证奖励(verifiable rewards)机制在数学领域应用的进一步深化。
当前挑战
该数据集所面对的领域挑战主要源于高级数值计算任务的复杂性:问题常要求模型对多个变量进行同步求解,而智能体需从冗长推导中准确提取并输出最终数值,这对模型的长程推理与数值稳定性提出了严峻考验。在数据集构建过程中,v1 版本暴露出严重的参考值不匹配问题——约 60% 的提示要求输出多个值,但验证器仅提取文本框中的最后一个数值作为正解,而原始评分器却以首个简化值为基准,导致求解率低至 2.5%。v2 版本虽修正了此错配,但如何设计既能覆盖多值场景又不失泛化能力的验证规则,仍是一大工程挑战。此外,构建高度隔离的 Harbor 任务容器、确保 Dockerfile 环境可复现、并定义严格的数值容差(tol_abs=tol_rel=1e-4)以平衡严格性与可行性,均构成数据仓库建设中的技术难点。
常用场景
经典使用场景
nemotron-gym-math-advanced-calculations-v2 数据集专为强化学习中的数学推理任务而设计,尤其在需要可验证奖励(verifiable rewards)的场景中表现突出。该数据集包含大量进阶微积分题目,要求智能体通过多步计算推导出数值解,并最终将结果写入指定文件。其经典使用方式为:智能体需在模拟的 Harbor 环境中依次完成指令解析、环境配置、计算执行与结果验证,通过测试脚本和验证器(verifier)自动评判数学答案的准确性。这一流程特别适合训练具备策略搜索与自我纠错能力的大语言模型,常见于基于过程监督或结果监督的强化学习框架中,是探索数学推理自动化的重要数据基础。
衍生相关工作
该数据集衍生出多项经典工作,最直接的是 NVIDIA 的 NeMo-Gym 系列,其原始数据集(Nemotron-RL-math-advanced_calculations)为后续 Harbor 格式转换提供了蓝本。在此基础上,研究者开发了基于数值比较的验证器族(numeric_compare verifier),支持绝对与相对容差机制。同时,该数据集启发了多值提取策略的改进(v2 版本修复了首个值与最终值不匹配的问题),推动了强化学习中多步计算问题的奖励函数设计标准。此外,它还被用于探索过程监督(process supervision)与结果监督(outcome supervision)的对比研究,以及如何通过指令强化(instruction strengthening)提升智能体在复杂数学任务上的鲁棒性。
数据集最近研究
最新研究方向
该数据集聚焦于强化学习中可验证奖励机制的数学推理能力,尤其在多变量表达式求解的场景下,通过修正奖励参考答案的提取逻辑(从首值切换为末值),显著提升了智能体在多步计算任务中的学习效率与求解精度。这一改进直接回应了当前大语言模型在数学推理领域面临的数值一致性挑战,为构建更可靠的RL训练基线提供了关键数据支撑。衍生自NVIDIA NeMo-Gym生态的Harbor格式封装,使其可无缝嵌入自动化验证环路,推动复杂数学推理任务的规模化强化学习探索。
以上内容由遇见数据集搜集并总结生成



