nemotron-gym-knowledge-web-search-mcqa

Name: nemotron-gym-knowledge-web-search-mcqa
Creator: LAION eV
Published: 2026-05-16 23:27:20
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-knowledge-web-search-mcqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是nvidia/Nemotron-RL-knowledge-web_search-mcqa的Harbor格式转换版本，属于强化学习任务类别，专注于知识问答和网络搜索场景。数据规模在1,000到10,000个样本之间，语言为英语。每个数据行包含两个字段：path是一个确定性短ID字符串，格式为<family>-<sha256[:12]>.tar.gz；task_binary是一个gzip压缩的tar二进制文件，其中封装了完整的Harbor任务，包括展示给智能体的提示指令、基于Python 3.11的环境Dockerfile及依赖项、验证器入口脚本和实现、验证器输入数据、元数据以及任务配置文件。数据集转换过程注重安全性，确保内容不会插入到shell、Python或Dockerfile源代码中，所有值通过JSON文件传递，并进行了严格的路径验证和字符处理。任务包具有确定性，支持可重复运行，适用于强化学习训练和评估，特别是涉及知识检索和多项选择问答的任务。

This dataset is a Harbor format conversion version of nvidia/Nemotron-RL-knowledge-web_search-mcqa, belonging to the reinforcement learning task category, focusing on knowledge question answering and web search scenarios. The data scale ranges from 1,000 to 10,000 samples, with the language being English. Each data row contains two fields: path is a deterministic short ID string in the format <family>-<sha256[:12]>.tar.gz; task_binary is a gzip-compressed tar binary file that encapsulates a complete Harbor task, including the prompt instruction displayed to the agent, an environment Dockerfile based on Python 3.11 and dependencies, validator entry script and implementation, validator input data, metadata, and task configuration files. The dataset conversion process emphasizes security, ensuring that dataset content is not inserted into shell, Python, or Dockerfile source code, with all values passed through JSON files and subjected to strict path validation and character handling. The task packages are deterministic, supporting reproducible runs, and are suitable for reinforcement learning training and evaluation, particularly for tasks involving knowledge retrieval and multiple-choice question answering.

提供机构：

LAION eV

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA的Nemotron-RL系列，经由Harbor格式转换而来，旨在为强化学习任务提供可验证奖励的MCQA（多项选择题问答）环境。构建过程遵循安全优先原则，所有数据内容严格通过JSON文件传递，杜绝代码注入风险。每一条数据包含一个确定性短ID和经过gzip压缩的tar包，其中封装了完整的Harbor任务结构，包括指令文件、Docker环境、验证器脚本及其输入数据，确保任务的封闭性与可重复性。基础镜像锁定为python:3.11-slim-bookworm，且pip依赖通过严格白名单正则校验，从源头保障安全。

特点

该数据集的核心特色在于其高度结构化的任务封装与可验证奖励机制。每个任务均以标准化tar包形式呈现，内含独立的验证器入口及测试脚本，支持通过正则表达式从模型输出中提取选定字母并判分，判分过程大小写不敏感。数据经过控制字符清理、长度限制与路径遍历攻击防护处理，确保生产环境下的安全性。所有tar包按确定性方式构建（排序条目、mtime归零、uid/gid归零），生成可复现的字节序列，便于分布式训练中的一致性校验。

使用方法

数据集可通过HuggingFace Datasets库直接加载，使用load_dataset函数读取训练集，访问path与task_binary字段即可获取任务ID和二进制数据包。如需在本地运行单一任务，可先通过Python脚本解压task_binary至临时目录，然后调用Harbor的run命令（如harbor run -t <任务目录> -e daytona）执行完整环境，验证器将自动生成奖励分数并写入/logs/verifier/reward.txt。该流程适用于强化学习中的奖励建模与策略评估场景，支持Docker与Daytona等执行引擎。

背景与挑战

背景概述

在强化学习与知识密集型任务的交汇处，可验证奖励信号的构建一直是制约智能体自主推理能力发展的关键瓶颈。2024年，NVIDIA研究团队联合LAION社区推出了nemotron-gym-knowledge-web-search-mcqa数据集，该数据集基于NVIDIA的NeMo-Gym系列，旨在通过多轮网页搜索与多选问答（MCQA）任务，为强化学习智能体提供可判定的奖励反馈机制。数据集由nvidia/Nemotron-RL-knowledge-web_search-mcqa转换而来，采用Harbor格式封装，确保了任务定义、验证脚本与环境依赖的完全可复现。作为NeMo-Gym集合的重要组成部分，该数据集推动了可验证奖励在复杂知识推理任务中的应用，为语言模型与搜索代理的协同进化提供了标准化测试平台，在学术界与工业界均产生了深远影响。

当前挑战

该数据集面临的核心挑战在于如何弥合开放域知识搜索与精确问答之间的鸿沟。具体而言，智能体需在海量非结构化网页中自主定位答案，并应对搜索结果的噪声、矛盾与信息缺失，这对长期推理与信息甄别能力提出了严苛要求。构建过程中，团队遭遇了多维度安全与标准化难题：数据集内容绝不能直接插值到Shell或Python代码中以避免注入风险，所有输入必须通过JSON文件在运行时解析；基于Docker的沙箱环境需严格锁定基础镜像版本（python:3.11-slim-bookworm）并对pip依赖实施白名单正则验证；文本字段需剥离控制字符并限制长度，同时确保tarball路径免于目录遍历与空字节攻击。最终通过确定性打包（排序条目、固定时间戳）实现了字节级可复现性，为强化学习环境的可靠部署奠定了基础。

常用场景

经典使用场景

知识增强型多轮问答任务是该数据集的核心应用场景。它通过将检索与推理深度融合，构建了一个需要智能体在开放网络环境中主动搜索、筛选并整合信息以回答复杂选择题的框架。每个样本封装为标准化Harbor任务单元，包含指令、环境、验证器与元数据，专为强化学习范式下的可验证奖励机制设计，尤其适合训练和评估具备信息检索与知识推理能力的智能对话系统。

衍生相关工作

该数据集基于NVIDIA的NeMo-Gym集合衍生而来，其Harbor格式转换工作直接关联了OpenThoughts-Agent项目的数据适配层。后续研究可能沿两个方向展开：一是将验证器从简单的正则表达式匹配升级为更复杂的语义评估器，二是融合多模态信息构建更丰富的知识检索问答场景。这些衍生工作共同构建了一个从数据生成到智能体训练的完整技术生态，为强化学习在知识密集型任务中的落地铺平了道路。

数据集最近研究