nemotron-gym-knowledge-openqa-v2
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-knowledge-openqa-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是nvidia/Nemotron-RL-knowledge-openqa的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的一部分,专为强化学习任务设计。数据集包含约10万到100万条样本,每条样本对应一个知识开放问答任务,以Harbor任务格式封装。每个样本包含两个字段:path(确定性短ID,格式为<family>-<sha256[:12]>.tar.gz)和task_binary(gzip压缩的tar二进制数据,内含完整的Harbor任务结构)。任务结构包括:instruction.md(提供给智能体的提示文本)、environment/Dockerfile(基于python:3.11-slim-bookworm的Docker环境及任务特定依赖)、tests/目录下的验证脚本和数据(包括验证器入口test.sh、验证器实现verifier.py、验证器输入数据verifier_data.json)、metadata.json(记录数据来源、行索引、家族等元数据)以及task.toml(标准Harbor任务配置,如CPU/内存/超时默认值)。转换过程注重安全性:数据集内容不会插入到shell、Python或Dockerfile源代码中,所有值通过JSON文件传递;基础镜像固定;文本字段经过控制字符去除和长度限制;tarball路径经过遍历攻击等验证;且tarball具有确定性(排序条目、固定时间戳和用户组),确保字节可复现。验证器采用llm_judge家族,默认使用LiteLLM和openai/gpt-4o-mini模型,根据参考答案作为评分标准,对可转述的长答案进行语义等效评判。该数据集适用于强化学习训练和评估,特别是基于知识开放问答的智能体任务,支持在Harbor环境中直接运行和验证。
This dataset is a Harbor format conversion version of nvidia/Nemotron-RL-knowledge-openqa, part of the NVIDIA NeMo-Gym collection, designed for reinforcement learning tasks. It contains approximately 100,000 to 1,000,000 samples, each corresponding to a knowledge open question-answering task, encapsulated in Harbor task format. Each sample includes two fields: path (a deterministic short ID in the format <family>-<sha256[:12]>.tar.gz) and task_binary (gzip-compressed tar binary data containing the complete Harbor task structure). The task structure consists of: instruction.md (prompt text provided to the agent), environment/Dockerfile (Docker environment based on python:3.11-slim-bookworm and task-specific dependencies), verification scripts and data in the tests/ directory (including the verifier entry test.sh, verifier implementation verifier.py, verifier input data verifier_data.json), metadata.json (recording metadata such as data source, row index, and family), and task.toml (standard Harbor task configuration, such as CPU/memory/timeout defaults). The conversion process emphasizes security: dataset content is not inserted into shell, Python, or Dockerfile source code; all values are passed via JSON files; the base image is fixed; text fields undergo control character removal and length restrictions; tarball paths are validated against traversal attacks; and tarballs are deterministic (with sorted entries, fixed timestamps, and user groups) to ensure byte reproducibility. The verifier uses the llm_judge family, defaulting to LiteLLM and openai/gpt-4o-mini models, with reference answers as the scoring standard for semantically equivalent evaluation of rephrasable long answers. This dataset is suitable for reinforcement learning training and evaluation, particularly for agent tasks based on knowledge open question-answering, supporting direct execution and verification in the Harbor environment.
提供机构:
LAION eV
创建时间:
2026-05-18
搜集汇总
数据集介绍

构建方式
该数据集源自NVIDIA的Nemotron-RL-knowledge-openqa,经由Harbor格式转换而来,确保了构建过程的安全性与确定性。转换过程中,所有数据集内容均避免直接嵌入Shell、Python或Dockerfile源码,而是通过运行时解析的JSON文件传递,有效防止了代码注入风险。基础镜像采用固定版本的轻量级Python环境,依赖包经过严格白名单验证。文本字段被清除控制字符并限制长度,tarball路径则被严格校验,防止目录遍历攻击。最终生成的tarball具备确定性——条目排序、时间戳设零、权限统一,确保了字节级别的可复现性。
特点
作为一款专为强化学习设计的开放性问答数据集,nemotron-gym-knowledge-openqa-v2的核心特色在于其安全的Harbor格式封装与可验证奖励机制。每个样本包含一个加密压缩的Harbor任务包,内含指令文件、隔离的Docker运行环境、验证器测试脚本及元数据。验证器采用基于LiteLLM的语义等价判断方法,默认使用GPT-4o-mini进行参考答案比对,适用于开放式长文答案的泛化评估。数据集规模介于10万至100万之间,以英文为主,兼具高扩展性与自动化验证能力。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,获取任务路径与二进制压缩包。典型用法是先提取单个任务包,利用Python的gzip和tarfile库解压至本地目录,再交由Harbor引擎运行——支持Daytona或Docker作为执行环境。数据集内每个任务包含instruction.md提示文件、environment/Dockerfile构建环境、tests/test.sh验证入口以及verifier.py实现脚本。用户只需将任务目录传递给Harbor命令,系统便会自动完成推理、验证与奖励计算,适合大规模强化学习流水线中的自动化训练与评估。
背景与挑战
背景概述
nemotron-gym-knowledge-openqa-v2数据集由LAION与NVIDIA合作构建,源于NVIDIA的Nemotron-RL-knowledge-openqa数据集,并于2024年发布,旨在为强化学习领域提供可验证奖励机制的知识型开放问答任务。核心研究问题聚焦于如何通过结构化、安全可执行的任务格式,推动语言模型在复杂知识推理场景中的强化学习训练。该数据集采用Harbor格式转换,将原始数据转化为标准化、确定性且安全沙盒化的任务包,为研究人员提供了高效可复现的实验基准,对强化学习与语言模型交叉领域具有重要推动作用。
当前挑战
该数据集面临的主要挑战包括:领域问题层面,知识型开放问答需要模型具备长文本理解、语义等价判断及跨领域知识检索能力,而传统奖励函数难以准确评估开放式回答的质量,需借助大语言模型作为裁判进行语义近似评分;构建过程层面,数据转换需确保安全性,避免内容注入攻击,同时保持任务包的确定性(如时间戳、文件顺序等),并在标准化格式下兼容不同验证器(如LiteLLM)的灵活集成,这对数据管道设计提出了严格约束。
常用场景
经典使用场景
在强化学习与知识推理的交叉领域,nemotron-gym-knowledge-openqa-v2数据集为智能体训练提供了精心设计的开放式问答任务。每个任务封装在Harbor格式的压缩包中,包含明确的指令文档、标准化的Docker环境、可执行的验证器脚本以及独立的测试数据。研究者和工程师可通过加载数据集,利用Harbor工具在隔离环境中反复执行任务,从而评估和优化智能体在复杂知识检索与生成场景下的决策能力。该数据集尤其适用于需要可验证奖励信号的强化学习范式,为基于语义等价性判断的长文本回答任务提供了可靠的评估基准。
衍生相关工作
作为NVIDIA NeMo-Gym生态系统的重要组件,该数据集衍生了一系列强化学习框架下的经典工作。原始数据集nvidia/Nemotron-RL-knowledge-openqa奠定了知识问答领域的奖励建模基础,而本版本的Harbor格式转换促使了OpenThoughts-Agent项目的诞生,后者专注于构建可扩展的智能体安全评估流水线。相关工作还包括利用该数据集验证的语义等价奖励函数设计,其启发的研究分支已延伸至多轮对话推理、长文档问答的信用分配以及基于LLM的交互式验证器架构优化,形成了从数据粒度和验证器安全性双向驱动的学术探索脉络。
数据集最近研究
最新研究方向
在强化学习与大规模语言模型交汇的前沿,Nemotron-Gym-Knowledge-OpenQA-v2数据集将开放域问答任务转化为可验证奖励的强化学习环境,为智能体提供了基于Harbor格式的标准化沙盒。该数据集衍生自NVIDIA的NeMo-Gym系列,通过LLM裁判(如GPT-4o-mini)实现语义等价性判断,精准评估长文回答的质量。这一设计紧密契合当前利用可验证奖励信号进行强化学习训练的热点方向,为探索复杂推理能力与高效对齐提供了关键基础设施。其安全不可变的数据封装与确定性构建流程,不仅保障了实验可复现性,也推动了强化学习在知识密集型任务中的实际应用,对构建更鲁棒、可解释的智能体系统具有深远影响。
以上内容由遇见数据集搜集并总结生成



