nemotron-gym-instruction-following

Name: nemotron-gym-instruction-following
Creator: LAION eV
Published: 2026-05-16 23:27:38
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-instruction-following

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是nvidia/Nemotron-RL-instruction_following数据集的Harbor格式转换版本，属于NVIDIA NeMo-Gym集合的一部分，专门用于强化学习任务，特别是指令遵循场景。数据集规模在1万到10万样本之间，语言为英语。每个数据样本包含两个字段：path（确定性短ID字符串）和task_binary（包含完整Harbor任务的gzip压缩tar二进制数据）。Harbor任务遵循标准布局，包括向智能体展示的提示指令文件（instruction.md）、基于python:3.11-slim-bookworm并添加任务特定依赖的环境Dockerfile、验证器入口点脚本（test.sh）及其实现（verifier.py）、每任务的验证器输入数据（verifier_data.json）、记录来源的元数据文件（metadata.json）以及标准的Harbor任务配置文件（task.toml）。转换过程注重安全性，确保数据集内容不会插值到shell、Python或Dockerfile源代码中，所有值通过JSON文件传递；基础镜像固定；文本字段经过控制字符清理和长度限制；tarball路径经过防遍历等攻击验证；且tarball具有确定性以保证可复现性。验证器家族采用IFEval风格的约束检查器，检查段落、单词、禁止内容和格式等。数据集适用于基于Harbor平台的强化学习训练和评估，用户可以通过Hugging Face datasets库加载数据，并提取单个任务在Harbor环境中运行。

This dataset is a Harbor format conversion of the nvidia/Nemotron-RL-instruction_following dataset, part of the NVIDIA NeMo-Gym collection, specifically designed for reinforcement learning tasks, particularly instruction-following scenarios. It contains between 10,000 and 100,000 samples in English. Each sample includes two fields: path (a deterministic short ID string) and task_binary (gzip-compressed tar binary data containing a complete Harbor task). Harbor tasks follow a standard layout, including a prompt instruction file (instruction.md) shown to the agent, an environment Dockerfile based on python:3.11-slim-bookworm with task-specific dependencies, a verifier entry point script (test.sh) and its implementation (verifier.py), per-task verifier input data (verifier_data.json), a metadata file (metadata.json) recording the source, and a standard Harbor task configuration file (task.toml). The conversion emphasizes security, ensuring dataset content is not interpolated into shell, Python, or Dockerfile source code, with all values passed via JSON files; the base image is fixed; text fields are cleaned of control characters and length-limited; tarball paths are validated against traversal and other attacks; and tarballs are deterministic for reproducibility. The verifier family uses IFEval-style constraint checkers to inspect paragraphs, words, prohibited content, and formatting. The dataset is suitable for reinforcement learning training and evaluation on the Harbor platform, and users can load the data via the Hugging Face datasets library to extract and run individual tasks in a Harbor environment.

提供机构：

LAION eV

创建时间：

2026-05-16

搜集汇总

数据集介绍

构建方式

本数据集源自NVIDIA的NeMo-Gym系列，通过对原始数据集nvidia/Nemotron-RL-instruction_following进行Harbor格式转换而构建。转换过程严格遵循安全优先原则，所有数据集内容均通过JSON文件传递至运行时解析，避免直接嵌入脚本或Dockerfile。每个任务以确定性标识符命名，并打包为经过排序的gzipped tar文件，确保字节级的可重复性。

特点

数据集包含约1万至10万个样本，每个样本由指令提示、验证器实现及其依赖环境组成。任务采用IFEval约束检查器，能够评估模型对段落、字数、禁用词及格式等指令遵循程度的符合情况。所有文本字段均经过控制字符清理和长度限制，路径经遍历攻击和绝对路径验证，具备高安全性和可复现性。

使用方法

用户可通过HuggingFace的datasets库直接加载数据：load_dataset('laion/nemotron-gym-instruction-following', split='train')获取二进制任务包。运行时需将tar包解压至目录，再通过Harbor命令行工具执行：harbor run -t /task-directory -e daytona或-e docker。验证器输出奖励值至/logs/verifier/reward.txt，便于强化学习训练中的奖励信号获取。

背景与挑战

背景概述

该数据集由LAION团队于2024年基于NVIDIA发布的Nemotron-RL-instruction_following原始数据转换而成，旨在为强化学习环境提供结构化的指令遵循任务。作为NVIDIA NeMo-Gym系列的一部分，它聚焦于验证智能体在复杂约束条件下（如段落限制、禁止词汇、格式化要求等）生成符合预设指令的能力。通过引入Harbor格式，该数据集实现了任务定义、环境配置与验证脚本的标准化封装，为可复现的强化学习训练与评估提供了可靠基准，在基于奖励信号的可验证强化学习领域具有重要影响力。

当前挑战

该数据集核心解决领域问题在于指令遵循任务中奖励信号的可验证性难题，即在多元约束（如文本长度、格式规范、语义准确性等）交织下，设计能自动判定任务是否完成的确定性验证机制。构建过程中面临双重挑战：一是需确保数据转换的绝对安全性，避免将数据集内容注入到Shell、Python或Dockerfile源码中引发任意代码执行风险；二是非确定性因素的消除，通过固定tar包内文件顺序与时间戳等元数据，保障不同环境下任务字节流的完全一致性。

常用场景

经典使用场景

在强化学习与指令遵循研究的交叉领域中，nemotron-gym-instruction-following数据集为训练智能体在多样化约束下精准执行自然语言指令提供了关键支撑。其经典使用场景聚焦于基于可验证奖励的强化学习范式，即通过IFEval约束检查器对智能体生成的响应进行结构化评估——包括段落数量、关键词包含、禁止用词及格式规范等维度。研究者将任务封装于Harbor运行环境中，每个样本包含独立的Docker镜像与确定性验证脚本，确保训练与评估过程的完全可复现。该设计使得模型能够在模拟环境中反复试错，通过奖励信号逐步优化指令遵循能力，尤其适用于需要严苛格式约束的对话系统与任务型代理场景。

衍生相关工作

基于该数据集的衍生工作已形成活跃的研究脉络。NVIDIA的NeMo-Gym系列依托此数据构建了指令遵循基准套件，为不同规模的语言模型在约束推理能力上提供了标准化评估入口。OpenThoughts-Agent项目进一步扩展了转换适配器，支持将原始数据集动态转化为结构化Harbor任务，促进了多智能体系统在指令遵循场景中的交叉验证。研究社区在此基础上发展出基于偏好优化的反馈方法，通过对比成功与失败案例的约束满足度来精细化调整策略网络。此外，针对指令遵循中的安全性挑战，相关衍生工作探索了利用verifier_data.json中的确定性输入构建对抗样本，在提升模型鲁棒性方面取得了显著进展。

数据集最近研究