five

nemotron-gym-math-advanced-calculations

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-math-advanced-calculations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是nvidia/Nemotron-RL-math-advanced_calculations的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的衍生作品。它专为强化学习任务设计,特别关注数学高级计算领域。数据集中每一行包含两个字段:path字段是一个确定性的短ID字符串,格式为<家族名>-<SHA256哈希前12位>.tar.gz;task_binary字段是一个gzip压缩的tar文件,封装了完整的Harbor任务。任务内容遵循标准Harbor布局,包括:展示给智能体的提示指令(instruction.md)、基于python:3.11-slim-bookworm镜像并添加了任务特定pip依赖的环境Dockerfile、验证器入口点脚本(test.sh)、确定性的嵌入式验证器实现(verifier.py)、以JSON格式存储且无需代码插值的每任务验证器输入数据(verifier_data.json)、记录来源数据集、行索引、家族等信息的元数据(metadata.json),以及包含CPU/内存/超时默认值的标准Harbor任务配置文件(task.toml)。数据集转换过程严格遵循安全构造原则:内容从不插值到shell、Python或Dockerfile源代码中,所有值通过tests/verifier_data.json(在运行时解析的JSON)传递;基础镜像名称被固定;pip规范根据严格的正则表达式允许列表进行验证;文本字段去除了控制字符并限制了长度;tar包路径经过验证以防止路径遍历等攻击;tar包是确定性的(排序条目、固定时间戳和用户/组ID),确保了字节级的可复现性。验证器家族为numeric_compare,执行数值容差与参考值的比较。

This dataset is a Harbor-format conversion of nvidia/Nemotron-RL-math-advanced_calculations, derived from the NVIDIA NeMo-Gym collection. It is designed for reinforcement learning tasks, specifically focusing on advanced mathematical calculations. Each row in the dataset contains two fields: the path field is a deterministic short ID string in the format <family>-<sha256[:12]>.tar.gz; the task_binary field is a gzip-compressed tar file encapsulating a complete Harbor task. The task content follows the standard Harbor layout, including: an instruction prompt for the agent (instruction.md), an environment Dockerfile based on python:3.11-slim-bookworm with task-specific pip dependencies, a validator entry point script (test.sh), a deterministic embedded validator implementation (verifier.py), per-task validator input data stored in JSON format without code interpolation (verifier_data.json), metadata recording the source dataset, row index, family, etc. (metadata.json), and a standard Harbor task configuration file with CPU/memory/timeout defaults (task.toml). The dataset conversion process strictly adheres to security construction principles: dataset content is never interpolated into shell, Python, or Dockerfile source code; all values are passed via tests/verifier_data.json (JSON parsed at runtime); base image names are fixed; pip specifications are validated against a strict regex allowlist; text fields have control characters removed and length limited; tar paths are validated to prevent attacks like path traversal; and tar packages are deterministic (sorted entries, fixed timestamps, and user/group IDs), ensuring byte-level reproducibility. The validator family is numeric_compare, performing numerical tolerance comparisons with reference values.
提供机构:
LAION eV
创建时间:
2026-05-16
原始信息汇总

数据集概述:laion/nemotron-gym-math-advanced-calculations

该数据集是 NVIDIA 的 Nemotron-RL-math-advanced_calculations 数据集的 Harbor 格式转换版本,属于 NeMo-Gym 系列(NeMo-Gym collection)。数据集主要用于强化学习(Reinforcement Learning)领域的可验证奖励(verifiable-rewards)任务。

基本信息

  • 许可证:CC-BY-4.0
  • 任务类别:强化学习(reinforcement-learning)
  • 语言:英语(en)
  • 数据集规模:1,000 至 10,000 条数据(1K<n<10K)
  • 验证器类型numeric_compare(数值容差与参考值对比)

数据结构

每条数据包含两个字段:

字段名 类型 描述
path 字符串 确定性短 ID(格式:<family>-<sha256[:12]>.tar.gz
task_binary 二进制 包含完整 Harbor 任务的 gzip 压缩 tar 包

Harbor 任务包内容(task_binary

解压后的任务目录结构如下:

instruction.md # 提供给智能体的提示(Prompt) environment/Dockerfile # 基于 python:3.11-slim-bookworm 的基础镜像 + 任务依赖 tests/test.sh # 验证器入口(将奖励写入 /logs/verifier/reward.txt) tests/verifier.py # 验证器实现(嵌入式、确定性) tests/verifier_data.json # 每个任务的验证器输入(JSON 格式,无代码插值) metadata.json # 溯源信息:来源数据集、行索引、系列等 task.toml # 标准 Harbor 任务配置(CPU/内存/超时默认值)

转换特性

  • 安全性保障:转换过程采用安全设计,数据集内容不会直接嵌入到 shell、Python 或 Dockerfile 中,所有值通过 tests/verifier_data.json 在运行时解析。
  • 基础镜固定:使用固定名称的 python:3.11-slim-bookworm 基础镜像。
  • 字符串净化:文本字段清理了 C0/C1 控制字符,长度有上限,tar 包路径经校验防止遍历攻击。
  • 确定性的 tar 包:条目排序、mtime=0uid/gid=0,生成可复现的字节序列。

使用示例

Python 加载数据集: python from datasets import load_dataset

ds = load_dataset("laion/nemotron-gym-math-advanced-calculations", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

提取单个任务并运行(使用 Harbor): bash python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-math-advanced-calculations", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/math-advanced-calculations-task") PY harbor run -t /tmp/math-advanced-calculations-task -e daytona # 或 -e docker

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自NVIDIA的Nemotron-RL-math-advanced_calculations,经由Harbor格式转换而来,专为强化学习场景设计。构建过程采用安全优先原则,确保数据内容不会直接嵌入到脚本或环境配置中,所有变量均通过JSON文件在运行时解析;基础镜像固定为python:3.11-slim-bookworm,pip依赖经严格白名单校验;文本字段清除控制字符并限制长度,打包路径杜绝越权攻击;最终生成的压缩包具有确定性(文件有序、时间戳归零),保障数据可复现。
特点
数据集包含约数千条高级数学计算任务,每行记录包含唯一路径标识和二进制压缩包。压缩包内遵循Harbor标准布局:instruction.md提供任务提示,environment目录包含定制化Docker环境,tests目录存放验证器入口与实现、验签输入数据,以及记录来源与配置的metadata.json和task.toml。该数据集采用数值比较验证器族,通过容差判定答案正确性,为强化学习中的可验证奖励信号提供坚实基础。
使用方法
使用者可通过HuggingFace的datasets库直接加载数据集,获取每项任务的路径与二进制内容。使用Harbor框架执行任务时,可借助Python脚本提取其中一条记录,将压缩包解压至指定目录,再通过harbor run命令配合本地或云端执行器(如Docker或Daytona)运行。该数据集适用于强化学习中的可验证奖励任务,可结合NVIDIA NeMo-Gym生态系统进行策略训练与评估。
背景与挑战
背景概述
在强化学习与数学推理的交叉前沿领域,基于可验证奖励信号的智能体训练范式正逐步成为研究焦点。nemotron-gym-math-advanced-calculations数据集由LAION团队于近期从NVIDIA的Nemotron-RL-math-advanced_calculations转化而来,旨在为强化学习智能体提供一套面向高等微积分问题的结构化验证环境。该数据集的核心研究问题聚焦于如何通过数值容差比较的验证器,对智能体在复杂数学计算任务中的输出进行确定性评判,从而驱动策略优化。其影响力体现在为大规模强化学习训练提供了安全、可复现、且具有严格隔离的评估基准,尤其适用于需要精确数学推理的场景,如科学计算与自动化证明验证。
当前挑战
该数据集面临的首要挑战在于领域问题的复杂性:高等微积分计算涉及符号操作、数值逼近与多步推导,传统基于规则或网络的评价体系难以覆盖其多样性,而本数据集采用数值容差比较的验证器虽确保了确定性与安全性,却可能忽略解法路径的合理性。构建过程中的挑战则包括:确保数据转换过程中不引入隐式代码注入风险,通过严格的安全机制(如控制字符过滤、路径验证)保持环境隔离;同时,将NVIDIA原始数据集转化为Harbor标准格式时,需兼顾元数据的保真度与任务配置的通用性,这对跨平台可迁移性提出了更高要求。
常用场景
经典使用场景
nemotron-gym-math-advanced-calculations数据集专为强化学习环境下的数学推理任务设计,其经典使用场景在于为智能体提供一系列高阶微积分与数值分析问题,作为可验证奖励的测试基准。研究者通过Harbor格式封装的任务,将数学命题、环境配置与验证器统一打包,使得智能体在求解导数、积分或极限等复杂运算后,能够基于数值容差与参考值进行自动化的正确性判定。该数据集尤其适用于训练具备严谨计算能力与多步推理策略的强化学习模型,推动数学问题求解从简单的符号操作向深层次逻辑演绎迈进。
衍生相关工作
围绕该数据集衍生出一系列代表性工作:NVIDIA的NeMo-Gym集合将其作为核心组件之一,推动基于可验证奖励的强化学习范式发展;Harbor框架在此基础上实现了任务标准化封装,催生了OpenThoughts-Agent等开源工具的链路适配与安全转换流水线。此外,研究者利用该数据集验证了过程奖励模型相较于结果奖励模型在复杂数学推理中的优势,并衍生出针对数值容差策略优化的对比实验。社区中基于此数据集的竞赛与基准测试,进一步促进了数学推理智能体在鲁棒性与计算效率上的迭代创新。
数据集最近研究
最新研究方向
该数据集聚焦于将高等数学计算任务转化为可验证奖励的强化学习训练格式,通过Harbor标准化协议封装数学推理验证环境,推动了大语言模型在数学推理、代码生成等需要精确验证场景下的对齐训练。其核心创新在于采用沙箱化任务架构与确定性验证器设计,每个样本包含独立的Docker环境、测试脚本与元数据,既保障了奖励信号的可靠性,又支持大规模分布式训练中的可重复执行。该数据集与NVIDIA NeMo-Gym生态紧密关联,代表了强化学习领域从简单游戏环境向复杂知识密集型任务演进的趋势,为开发具备严谨数学推理能力的智能体提供了高质量的基准数据,尤其在需要逐步推导与数值精度验证的微分方程、优化理论等前沿课题中具有重要应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作