five

nemotron-gym-instruction-following-structured

收藏
Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-instruction-following-structured
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是NVIDIA Nemotron-RL-instruction_following-structured_outputs数据集的Harbor格式转换版本,属于NeMo-Gym集合的一部分。它专为强化学习任务设计,特别关注指令遵循和结构化输出验证。数据集包含1,000到10,000个样本,每个样本代表一个完整的强化学习任务。数据采用Harbor任务格式,每行包含两个字段:path字段提供确定性短ID标识符(格式为<family>-<sha256[:12]>.tar.gz),task_binary字段包含gzip压缩的tar文件,封装了完整的Harbor任务。每个任务包包含多个核心组件:instruction.md文件提供展示给智能体的提示指令;environment/Dockerfile定义基于python:3.11-slim-bookworm的基础镜像和任务特定依赖;tests/test.sh作为验证器入口点,负责写入奖励信号;tests/verifier.py提供确定性的嵌入式验证器实现;tests/verifier_data.json包含每个任务的验证器输入数据(JSON格式);metadata.json记录数据来源、行索引、任务家族等元数据;task.toml提供标准Harbor任务配置,包括CPU、内存和超时默认值。数据集采用json_schema验证器家族,专门用于解析智能体输出的JSON并验证其是否符合Draft 2020-12 JSON Schema标准。转换过程由OpenThoughts-Agent项目的适配器生成,确保安全性和可重现性:所有数据值通过JSON文件传递,不进行代码插值;基础镜像固定;文本字段经过安全处理;tarball生成具有确定性。该数据集适用于需要可验证奖励信号的强化学习研究,特别是指令遵循和结构化输出验证任务。

This dataset is a Harbor format conversion of the NVIDIA Nemotron-RL-instruction_following-structured_outputs dataset, part of the NeMo-Gym collection. It is designed for reinforcement learning tasks, with a focus on instruction following and structured output verification. The dataset contains 1,000 to 10,000 samples, each representing a complete reinforcement learning task. It uses the Harbor task format, with each row containing two fields: the path field provides a deterministic short ID identifier (format: <family>-<sha256[:12]>.tar.gz), and the task_binary field contains a gzip-compressed tar file encapsulating the full Harbor task. Each task package includes core components: an instruction.md file with prompts for the agent; environment/Dockerfile defining a base image (python:3.11-slim-bookworm) and task-specific dependencies; tests/test.sh serving as the verifier entry point for writing reward signals; tests/verifier.py providing a deterministic embedded verifier implementation; tests/verifier_data.json containing verifier input data per task (JSON format); metadata.json recording metadata such as data source, row index, and task family; and task.toml with standard Harbor task configurations including CPU, memory, and timeout defaults. The dataset employs the json_schema verifier family, specifically designed to parse agent JSON outputs and verify compliance with the Draft 2020-12 JSON Schema standard. The conversion process is generated by the OpenThoughts-Agent project adapter, ensuring security and reproducibility: all data values are passed via JSON files without code interpolation; the base image is fixed; text fields are sanitized; and tarball generation is deterministic. It is suitable for reinforcement learning research requiring verifiable reward signals, particularly for instruction following and structured output verification tasks.
提供机构:
LAION eV
创建时间:
2026-05-16
原始信息汇总

数据集概述

laion/nemotron-gym-instruction-following-structured 是一个面向强化学习(RL)任务的数据集,由 NVIDIA 的 nvidia/Nemotron-RL-instruction_following-structured_outputs 数据集转换而来,使用 Harbor 格式组织。

基本信息

  • 许可证: CC-BY-4.0
  • 任务类型: 强化学习(reinforcement-learning)
  • 语言: 英语(en)
  • 数据集规模: 1,000 ~ 10,000 条样本(1K<n<10K)
  • 标签: harbor, nemotron-gym, rl, verifiable-rewards

数据结构

每条记录包含两个字段:

字段 类型 描述
path string 确定性短 ID(格式:<family>-<sha256[:12]>.tar.gz
task_binary binary Gzip 压缩的 tar 包,包含完整的 Harbor 任务

任务包内容(tar 包目录结构)

instruction.md # 提供给智能体的提示词(Prompt) environment/Dockerfile # Python 3.11 slim-bookworm 基础镜像 + 任务专属 pip 依赖 tests/test.sh # 验证器入口(输出 /logs/verifier/reward.txt) tests/verifier.py # 验证器实现(确定性的,已内嵌) tests/verifier_data.json # 每个任务的验证器输入数据(JSON 格式,无代码插值) metadata.json # 溯源信息:source_dataset, row_index, family, ... task.toml # 标准 Harbor 任务配置(默认 CPU/内存/超时限制)

转换安全性

  • 安全构建:数据集内容不会被插入到 shell、Python 或 Dockerfile 源代码中,所有值通过 tests/verifier_data.json(JSON 格式,运行时解析)传递。
  • 基础镜像:固定为 python:3.11-slim-bookworm;pip 依赖使用严格的白名单正则表达式验证。
  • 文本清洗:移除 C0/C1 控制字符;长度限制;tar 包路径经过遍历、空字符、绝对路径攻击验证。
  • 确定性的 tar 包:条目排序、mtime=0uid/gid=0,确保字节可复现。

验证器家族

json_schema:解析智能体的 JSON 输出,并依据 Draft 2020-12 JSON Schema 进行验证。

使用方式

通过 Hugging Face Datasets 加载

python from datasets import load_dataset

ds = load_dataset("laion/nemotron-gym-instruction-following-structured", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

使用 Harbor 运行单个任务

bash

将任务解压到目录并指向 Harbor

python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-instruction-following-structured", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/instruction-following-structured-task") PY harbor run -t /tmp/instruction-following-structured-task -e daytona # 或 -e docker

数据来源

该数据集源自 NVIDIA 的 nvidia/Nemotron-RL-instruction_following-structured_outputs,是 NeMo-Gym 集合 的一部分。转换代码由 OpenThoughts-Agent 中的 data/nemotron_gym 适配器生成。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自NVIDIA的Nemotron-RL系列指令遵循结构化输出数据集,经由OpenThoughts-Agent项目中的适配器进行Harbor格式转化而来。构建过程遵循安全优先原则:所有数据内容均通过tests/verifier_data.json以JSON格式传递,在运行时解析,绝无注入到Shell、Python或Dockerfile源码的风险。基础镜像采用固定的python:3.11-slim-bookworm,pip依赖经过严格的正则白名单验证。文本字段已剔除C0/C1控制字符并限制长度,压缩包路径亦经过遍历、空字符及绝对路径攻击的校验。最终生成的tar.gz文件确保了确定性输出,条目排序、修改时间戳等元数据均统一,保证了字节级别的可复现性。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,调用load_dataset函数即可获取包含路径和任务二进制内容的样本。每个样本的task_binary字段是一个gzip压缩的tar包,需解压到指定目录后配合Harbor工具运行。典型工作流包括:从数据集中提取一个样本,使用Python的tarfile模块解压缩到临时目录,再通过harbor run命令并指定执行环境(如Daytona或Docker)来启动任务。执行后,验证器会将奖励分数写入/logs/verifier/reward.txt文件中,方便后续强化学习流程调用。整个过程简洁且可脚本化,便于集成到大规模训练管线中。
背景与挑战
背景概述
强化学习(Reinforcement Learning, RL)在自然语言处理领域的前沿探索中,如何有效训练模型遵循复杂指令并生成结构化输出,已成为一项核心研究课题。该数据集由LAION团队于近期创建,是对NVIDIA公司发布的Nemotron-RL-instruction_following-structured_outputs数据集的海港(Harbor)格式转换版本,旨在为可验证奖励的强化学习任务提供标准化接口。核心研究问题聚焦于通过可执行的环境验证器(Verifier)来评估智能体生成的JSON输出是否符合预定义的JSON Schema标准,从而推动模型在指令遵循与格式规范性方面的能力提升。该数据集的出现,为强化学习社区提供了一套可复现、安全隔离的任务执行框架,有望促进基于结构化输出的RL训练范式的标准化与规模化应用。
当前挑战
该数据集所应对的核心挑战在于强化学习领域中指令遵循任务的系统性评估难题。传统方法往往依赖人工或模糊评分,缺乏自动化、确定性的验证机制;而该数据集通过将任务封装为结构化Harbor格式,采用基于JSON Schema的验证器实现了对智能体输出格式和内容的精确判别。在构建过程中,团队面临了严格的安全挑战,包括防止数据集内容被注入到Shell、Python或Dockerfile源码中,以及去除文本中的控制字符并进行长度限制。此外,还需确保tarball路径遍历攻击的防范与构建结果的确定性,最终通过排序条目、固定时间戳等方式实现了可复现的二进制输出,为后续研究提供了可靠的基础设施保障。
常用场景
经典使用场景
该数据集专为强化学习中的指令遵循与结构化输出场景而设计,其经典使用方式在于为智能体提供结构化的任务环境与可验证的奖励信号。通过Harbor格式封装,每个任务包含具体的指令描述、安全隔离的Docker环境、以及基于JSON Schema的验证器,使得研究人员能够高效地进行强化学习训练与评估。数据集中每一行对应一个独立任务,智能体需理解自然语言指令并生成符合预定JSON Schema的结构化输出,这一过程模拟了真实世界中需要精确遵循指令和生成规范格式信息的交互场景。
解决学术问题
该数据集解决了强化学习研究中奖励信号设计复杂且难以泛化的问题,以及智能体在遵循指令时输出格式不规范的挑战。传统方法依赖手工设计的奖励函数,难以应对多样化的指令任务;而本数据集通过引入可工程性验证的奖励机制,即利用JSON Schema对智能体输出进行自动、确定性的格式与语义校验,大幅提升了奖励信号的可靠性与泛化能力。这一创新为探索指令遵循与结构化输出之间的内在关系提供了标准化测试平台,推动了强化学习在语言引导的具身任务中的理论发展。
实际应用
在实际应用中,该数据集可服务于需要智能体精确执行指令并生成规范输出的领域,例如自动化代码生成、智能客服系统中的表单填写、机器人操控中的命令解析与执行,以及数据管道的自动化配置。通过训练模型学习将自然语言指令转化为结构化的JSON格式,能够显著减少人工干预,提升工业级任务的执行准确率与效率。此外,其基于Harbor的安全执行环境设计,也使得该数据集适合在严格监管的行业场景落地,如金融和医疗领域的合规性任务。
数据集最近研究
最新研究方向
在强化学习领域,指令遵循与结构化输出对齐的研究正成为推动大语言模型实用化的关键前沿。该数据集通过Harbor格式封装NVIDIA的Nemotron-RL指令遵循任务,将可验证奖励机制引入训练流程,为构建可靠的智能体系统奠定了基础。其核心创新在于将结构化输出的验证过程与强化学习环境深度融合,使得模型不仅能够理解复杂指令,更能生成符合严格格式规范的响应。这一方向与当前大语言模型在代码生成、数据解析等需要精确输出的应用场景高度契合,通过可复现的确定性任务架构,为学术界和工业界提供了一个标准化的评估与训练平台,有望加速大模型在结构化任务中的落地进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作