nemotron-gym-knowledge-openqa

Name: nemotron-gym-knowledge-openqa
Creator: LAION eV
Published: 2026-05-16 23:27:30
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-knowledge-openqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是nvidia/Nemotron-RL-knowledge-openqa数据集的Harbor格式转换版本，专为强化学习环境设计。其核心内容是知识开放问答任务，每个数据样本代表一个完整的、可执行的强化学习环境任务包。数据以表格形式组织，每行包含两个关键字段：`path`（一个确定性的短标识符字符串）和`task_binary`（一个经过gzip压缩的tar归档文件二进制数据）。tar包内部遵循标准的Harbor任务布局，包含以下文件：`instruction.md`（展示给智能体的提示文本）、`environment/Dockerfile`（基于特定Python版本的基础环境及任务依赖）、`tests/test.sh`（验证器入口脚本）、`tests/verifier.py`（确定性的验证器实现代码）、`tests/verifier_data.json`（JSON格式的验证器输入数据，不进行代码插值）、`metadata.json`（包含来源数据集、行索引、任务族等信息的元数据）以及`task.toml`（标准的Harbor任务配置文件，定义了CPU、内存、超时等默认设置）。数据转换过程注重安全性，确保数据集内容不会被插值到Shell、Python或Dockerfile源代码中，所有动态值通过`verifier_data.json`传递；基础Docker镜像被固定；文本字段经过清理；压缩包路径经过防遍历等安全验证；并且生成的tar包是确定性的，保证了字节级可复现性。数据集使用的验证器类型为normalized_text，涉及文本的空白字符、大小写和标点符号规范化及子字符串匹配。该数据集适用于训练和评估在知识问答场景下的强化学习智能体，数据规模在10万到100万个任务样本之间。

This dataset is a Harbor format conversion of the nvidia/Nemotron-RL-knowledge-openqa dataset, designed for reinforcement learning environments. Its core content is knowledge open question answering tasks, with each data sample representing a complete, executable reinforcement learning environment task package. The data is organized in tabular form, with each row containing two key fields: `path` (a deterministic short identifier string) and `task_binary` (a gzip-compressed tar archive binary data). The tar package internally follows the standard Harbor task layout, including the following files: `instruction.md` (prompt text displayed to the agent), `environment/Dockerfile` (base environment based on a specific Python version and task dependencies), `tests/test.sh` (verifier entry script), `tests/verifier.py` (deterministic verifier implementation code), `tests/verifier_data.json` (JSON format verifier input data without code interpolation), `metadata.json` (metadata containing source dataset, row index, task family, etc.), and `task.toml` (standard Harbor task configuration file defining default settings such as CPU, memory, timeout). The data conversion process emphasizes security, ensuring that dataset content is not interpolated into Shell, Python, or Dockerfile source code; all dynamic values are passed via `verifier_data.json`; base Docker images are fixed; text fields are cleaned; compressed package paths undergo security validation against traversal; and the generated tar packages are deterministic, ensuring byte-level reproducibility. The dataset uses a verifier type of normalized_text, involving normalization of whitespace, case, and punctuation, and substring matching. It is suitable for training and evaluating reinforcement learning agents in knowledge question answering scenarios, with a data scale ranging from 100,000 to 1,000,000 task samples.

提供机构：

LAION eV

创建时间：

2026-05-16

原始信息汇总

数据集概述：laion/nemotron-gym-knowledge-openqa

该数据集是 NVIDIA 的 Nemotron-RL-knowledge-openqa 数据集的 Harbor 格式转换版本，专为强化学习（Reinforcement-Learning）场景设计，属于 NVIDIA NeMo-Gym 集合的一部分。

基本信息

许可证：cc-by-4.0
语言：英语（en）
数据集规模：100K < n < 1M 条样本
标签：harbor, nemotron-gym, rl, verifiable-rewards

数据结构

每行数据包含两个字段：

列名	类型	描述
`path`	字符串	确定性短ID（格式：`<family>-<sha256[:12]>.tar.gz`）
`task_binary`	二进制	包含完整 Harbor 任务的 Gzip 压缩 tar 包

Harbor 任务布局（tarball 内容）

每个 tar 包内部遵循 Harbor 的标准任务布局：

instruction.md：提供给代理（agent）的提示文本
environment/Dockerfile：基于 python:3.11-slim-bookworm 的 Docker 镜像，包含任务特定的 pip 依赖
tests/test.sh：验证器入口脚本，负责写入 /logs/verifier/reward.txt
tests/verifier.py：验证器的确定性实现
tests/verifier_data.json：每个任务的验证器输入数据（JSON 格式，不含代码插值）
metadata.json：元数据，包括来源数据集、行索引、所属家族等信息
task.toml：标准 Harbor 任务配置（CPU、内存、超时等默认设置）

验证器家族

采用 normalized_text 验证方式，即对文本进行标准化（包括去除多余空白、统一大小写和标点符号）后执行子字符串匹配。

转换安全特性

该数据集由 OpenThoughts-Agent 的 data/nemotron_gym 适配器生成，转换过程遵循“构建即安全”原则：

数据集内容从不插入到 shell、Python 或 Dockerfile 源码中，所有值通过 tests/verifier_data.json（JSON 格式，运行时解析）传递
基础镜像固定为 python:3.11-slim-bookworm，pip 依赖清单经过严格的允许列表正则验证
文本字段已清除 C0/C1 控制字符，长度设有上限，tar 包路径已防止遍历、空字节和绝对路径攻击
tar 包具有确定性（条目排序、mtime=0、uid/gid=0），确保可重复的字节输出

搜集汇总

数据集介绍

构建方式

该数据集源于NVIDIA的NeMo-Gym集合，通过对原始数据集nvidia/Nemotron-RL-knowledge-openqa进行Harbor格式转换而来。转换过程依托于OpenThoughts-Agent框架中的data/nemotron_gym适配器，严格遵循安全构建设计。每个数据行包含一个由短ID标识的路径字段以及一个经Gzip压缩的tar归档文件，后者完整封装了Harbor任务所需的全部组件，包括环境描述、Dockerfile、验证脚本及元数据等。

特点

数据集的一大特色是其安全性架构，确保内容从未被直接嵌入到shell、Python或Dockerfile源中，所有数值均通过JSON文件在运行时解析。此外，基础镜像版本锁定，pip依赖经过严格的正则表达式白名单验证，文本字段去除了控制字符并限定了长度，而tar归档路径则通过多重攻击检测。这些设计使得数据集具备可复现的字节级确定性，并采用归一化文本验证族来评估输出质量。

使用方法

使用者可借助HuggingFace的datasets库轻松加载，执行load_dataset函数即可获得一个包含路径与二进制任务对象的训练集。如需在Harbor环境中运行具体任务，可先将二进制数据解压至临时目录，再通过harbor run命令指向该目录并指定运行时后端（如daytona或docker）即可启动验证流程。这种封装方式极大简化了强化学习任务的复现与评估操作。

背景与挑战

背景概述

在强化学习与知识问答交叉领域，可验证奖励信号的稀缺性始终制约着智能体在开放域推理中的泛化能力。laion/nemotron-gym-knowledge-openqa数据集由LAION与NVIDIA共同构建，源自NVIDIA Nemotron-RL-knowledge-openqa，于2024年以Harbor格式重新发布，旨在为强化学习驱动的知识开放问答提供标准化、可复现的评估基准。该数据集通过将NVIDIA的原始任务转化为确定性容器化环境，每个样本包含指令、依赖环境、验证器及元数据，使研究者能够对智能体输出进行子串匹配式的自动奖励判断，解决了传统问答评测中人工标注成本高、环境非确定性的问题。作为NeMo-Gym集合的核心组件，该数据集推动了强化学习从游戏仿真向知识密集型推理任务的迁移，对构建可验证的通用问答智能体具有重要的范式推动作用。

当前挑战

该数据集旨在应对两大核心挑战：其一是领域问题层面，开放域知识问答长久以来依赖静态基准集，缺乏对环境交互与奖励动态反馈的仿真，导致强化学习智能体难以在真实知识检索场景中习得有效的搜索与推理策略；其二是构建过程层面，将高维的问答任务转化为可执行的Docker容器与确定性验证器，需处理数据泄露、命令注入、路径遍历等安全风险，同时确保每个任务的奖励信号公正且可复现，对数据格式的标准化与安全审计提出了严苛要求。此外，文本匹配类的验证机制虽易于自动执行，却难以覆盖语义等价但表述迥异的答案，这是该数据集在泛化性上亟待突破的瓶颈。

常用场景

经典使用场景

在强化学习与知识推理的交汇领域，nemotron-gym-knowledge-openqa数据集主要服务于基于验证奖励的开放域问答任务。它被设计用于训练和评估智能体在缺乏明确答案监督的情况下，通过执行信息检索与知识整合，生成准确回答并获取外部验证信号的能力。研究者利用该数据集构造的Harbor格式任务，能够在可控的沙盒环境中测试模型对事实性知识的掌握程度，以及其自主搜索和推理的链条完整性。

解决学术问题

该数据集有效回应了强化学习在知识密集型任务中奖励稀疏且难以自动校验的核心困境。通过引入可验证的奖励机制（verifiable rewards），它使得模型能够在不依赖人工标注的情况下，从开放域文本中学习到精准的事实性知识提取与综合能力。这一设计显著推进了将强化学习应用于复杂问答场景的研究，为缓解大规模模型在知识更新、时效性及幻觉问题上的短板提供了标准化评估基准，并推动了自动化推理验证技术的进步。

衍生相关工作

围绕该数据集，社区已衍生出多项重要工作。其数据转换与任务封装架构被OpenThoughts-Agent项目采纳为标准适配器，推动了Harbor格式在可复现验证任务中的普及。NVIDIA的NeMo-Gym系列亦以此为基础拓展了更多知识推理的变体任务，如多跳问答与时效性评估。此外，研究者基于该数据集的干净分离逻辑，开发出针对llm强化学习训练中奖励模型精度的对比分析框架，为下一代可验证自主智能体的构建奠定了数据与工具基石。

以上内容由遇见数据集搜集并总结生成