nemotron-gym-instruction-following-adversarial

Name: nemotron-gym-instruction-following-adversarial
Creator: LAION eV
Published: 2026-05-16 23:28:09
License: 暂无描述

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/laion/nemotron-gym-instruction-following-adversarial

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1的Harbor格式转换版本，专门用于强化学习任务，特别是指令遵循和对抗性评估场景。数据以Harbor任务格式组织，每个样本包含两列：path（确定性短ID字符串，格式为<family>-<sha256[:12]>.tar.gz）和task_binary（gzip压缩的tar文件，包含完整的Harbor任务）。任务tarball内包含多个文件：instruction.md（展示给智能体的提示文本）、environment/Dockerfile（基于python:3.11-slim-bookworm镜像并添加任务特定pip依赖）、tests/test.sh（验证器入口点脚本，负责写入奖励日志）、tests/verifier.py（确定性嵌入式验证器实现）、tests/verifier_data.json（每个任务的验证器输入JSON数据，无代码插值）、metadata.json（来源元数据，如源数据集、行索引、家族等）和task.toml（标准Harbor任务配置，包括CPU/内存/超时默认值）。数据集强调安全构建转换，确保内容不插值到shell、Python或Dockerfile源码中，所有值通过JSON传递，基础镜像固定，pip规范经过严格允许列表正则验证，文本字段去除控制字符并长度限制，tarball路径经过遍历/NUL/绝对路径攻击验证，且tarball具有确定性（排序条目、固定时间戳和用户组），保证字节可复现。数据规模在1千到1万样本之间，语言为英语，采用CC-BY-4.0许可证。它源自NVIDIA的NeMo-Gym集合，可用于强化学习训练和评估，支持通过Harbor工具运行单个任务。

This dataset is a Harbor-formatted converted version of nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1, specifically designed for reinforcement learning tasks, particularly instruction following and adversarial evaluation scenarios. The data is organized in Harbor task format, with each sample containing two columns: `path` (a deterministic short ID string in the format `<family>-<sha256[:12]>.tar.gz`) and `task_binary` (a gzip-compressed tar archive containing a full Harbor task). The task tarball includes multiple files: `instruction.md` (prompt text presented to AI agents), `environment/Dockerfile` (based on the python:3.11-slim-bookworm image with task-specific pip dependencies added), `tests/test.sh` (validator entrypoint script responsible for writing reward logs), `tests/verifier.py` (deterministic embedded verifier implementation), `tests/verifier_data.json` (validator input JSON data for each task with no code interpolation), `metadata.json` (source metadata including source dataset, row index, family, etc.), and `task.toml` (standard Harbor task configuration including default CPU, memory, and timeout values). This dataset emphasizes secure construction during conversion, ensuring no content is interpolated into shell, Python, or Dockerfile source code. All values are passed via JSON, with a fixed base image, pip specifications strictly validated against an allowlist regex, control characters removed from text fields with length limits applied, tarball paths validated against traversal, NUL, and absolute path attacks, and tarballs being deterministic (sorted entries, fixed timestamps and user/group ownership) to guarantee byte-for-byte reproducibility. The dataset contains between 1,000 and 10,000 samples, is in English, and is licensed under CC-BY-4.0. It originates from NVIDIA's NeMo-Gym collection, can be used for reinforcement learning training and evaluation, and supports running individual tasks via Harbor tooling.

提供机构：

LAION eV

创建时间：

2026-05-16

原始信息汇总

数据集概述

数据集名称：laion/nemotron-gym-instruction-following-adversarial

许可证：CC-BY-4.0

语言：英语

任务类别：强化学习

数据规模：1,000 至 10,000 条记录

数据集来源与转换

该数据集是对 NVIDIA 的 nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1 数据集的 Harbor 格式转换版本，属于 NVIDIA 的 NeMo-Gym 集合的一部分。
转换由 OpenThoughts-Agent 中的 data/nemotron_gym 适配器生成。

数据内容与格式

每条记录包含两列：

列名	类型	描述
`path`	字符串	确定性短ID（格式：`<family>-<sha256[:12]>.tar.gz`）
`task_binary`	二进制	包含完整 Harbor 任务的 gzip 压缩 tar 包

压缩包内部结构（Harbor 任务布局）

instruction.md # 提供给代理的提示（Prompt） environment/Dockerfile # 基于 python:3.11-slim-bookworm 镜像 + 任务特定的 pip 依赖 tests/test.sh # 验证器入口（输出 /logs/verifier/reward.txt） tests/verifier.py # 验证器实现（嵌入式，确定性） tests/verifier_data.json # 每个任务的验证器输入数据（JSON格式，无代码插值） metadata.json # 元数据：来源数据集、行索引、家族等 task.toml # 标准 Harbor 任务配置（CPU/内存/超时默认值）

安全性设计

安全构建：数据集内容从不插入到 shell、Python 或 Dockerfile 源码中，所有值通过 tests/verifier_data.json（JSON格式，运行时解析）传递。
基线镜像固定：使用固定名称的 python:3.11-slim-bookworm 镜像，pip 规格经过严格允许列表正则校验。
文本清理：文本字段移除 C0/C1 控制字符，长度有上限，tar 包路径经过遍历/NUL/绝对路径攻击校验。
确定性打包：tar 包内容确定性排序（mtime=0，uid/gid=0），保证字节可重现。

验证器家族

验证器采用 LLM法官（LiteLLM） 方式，每个任务使用上游行中的 rubric 和 judge_prompt_template 进行评判。

使用示例

Python 加载数据集

python from datasets import load_dataset

ds = load_dataset("laion/nemotron-gym-instruction-following-adversarial", split="train") print(ds[0]["path"], len(ds[0]["task_binary"]))

使用 Harbor 运行单个任务

bash

提取一个任务到目录并指向 Harbor

python - <<PY import gzip, io, tarfile from datasets import load_dataset ds = load_dataset("laion/nemotron-gym-instruction-following-adversarial", split="train") row = ds[0] with tarfile.open(fileobj=io.BytesIO(row["task_binary"]), mode="r:gz") as tar: tar.extractall("/tmp/instruction-following-adversarial-task") PY harbor run -t /tmp/instruction-following-adversarial-task -e daytona # 或 -e docker

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA的NeMo-Gym系列，具体为nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1的Harbor格式转换。由OpenThoughts-Agent项目中的data/nemotron_gym适配器生成，转换过程遵循安全至上的构建原则。每一行数据包含一个确定性短ID路径以及一个经过gzip压缩的tar包，该tar包严格遵循Harbor任务布局，内含指令提示、基于python:3.11-slim-bookworm的Docker环境、验证器入口脚本及其实现、任务特定的验证器数据JSON文件、元数据信息以及标准Harbor任务配置文件。构建方式确保了内容安全，避免了shell、Python或Dockerfile中的代码注入风险，所有数值均通过JSON文件在运行时解析。

特点

此数据集的核心特点在于其对抗性指令遵循任务的验证器家族设计，采纳了基于LiteLLM的llm_judge验证器，每个任务都配备了独特的rubric和judge_prompt_template，源自上游数据行。数据规模介于1千至1万之间，专为强化学习场景设计。其安全转换机制尤为突出，包括对文本字段进行控制字符清理、长度限制、路径攻击防护，以及确保tarball的确定性生成（排序条目、固定时间戳和用户组ID），从而保证了字节级别的可复现性。这种设计使得任务验证过程既严格又灵活，能够有效评估模型在对抗性环境下的指令遵循能力。

使用方法

使用者可通过HuggingFace的datasets库轻松加载该数据集，调用load_dataset函数即可获取训练集，每个样本包含路径和二进制任务数据。为运行单个任务，需通过Python脚本将gzip压缩的tar包提取至目录，随后使用Harbor命令行工具（如harbor run）指定任务路径和运行环境（如docker或daytona）即可执行。数据集的Harbor格式标准化了任务配置，包括CPU、内存和超时默认值，使得集成到现有强化学习训练流程或验证流水线中极为便捷。该设计支持对模型进行对抗性指令遵循测试，适用于模型安全性评估与鲁棒性增强等研究场景。

背景与挑战

背景概述

在强化学习与语言模型对齐的研究浪潮中，指令遵循能力的评测与训练成为核心议题。为应对复杂指令下模型行为可控性的挑战，NVIDIA研究团队于2024年发布了Nemotron-RL-Instruction-Following-Adversarial数据集，并由LAION团队转换为Harbor格式以增强安全性与可复现性。该数据集专注于生成对抗性指令遵循任务，旨在通过结构化验证器（Verifier）评估模型输出是否符合预设的评分标准（rubric）与裁判提示模板（judge_prompt_template）。基于LiteLLM的裁判家族设计，其核心研究问题在于如何构建可验证奖励信号，从而推动强化学习训练中模型对细粒度指令的服从能力。作为NeMo-Gym生态系统的一部分，该数据集为安全对齐与可验证RL范式提供了标准化工具，在语言模型可控性研究领域具有重要影响力。

当前挑战

该数据集面临多维挑战。在领域问题层面，主要攻克语言模型在非确定性和开放场景下精确遵循复杂指令的评测难题——传统静态指标难以捕捉指令的隐含约束与对抗性扰动，需设计可动态判决的验证器。在构建过程中，首要挑战是确保从原始数据到Harbor格式转换的安全性与确定性：需避免SQL注入式内容拼接攻击，通过JSON隔离数据与执行代码；其次需维护可复现的任务环境，对Docker基础镜像进行名称固定（name-pinned）并建立pip依赖白名单机制；最后需处理文本编码异常，剥离C0/C1控制字符并限制字段长度，同时通过路径穿越攻击检测保证tarball的完整性。这些工程化约束确保了数据集在分布式RL训练中可作为可靠奖励源使用。

常用场景

经典使用场景

该数据集以强化学习为基石，专为指令遵循能力的对抗性训练而设计。其经典用途在于构建和评估能够精准理解并执行复杂指令的智能体，特别是在具有挑战性的多步骤任务场景中。通过封装为Harbor格式，每个样本都包含一个完整的任务环境，包括提示文本、Docker化的运行环境以及确定性验证器，使得研究者能够直接在可控且可复现的条件下进行策略梯度优化或奖励建模。这种设计极大地简化了从数据到训练的流程，成为检验大语言模型在指令遵循任务中鲁棒性与泛化能力的标准化基准。

衍生相关工作

该数据集继承并发展了NVIDIA NeMo-Gym生态中的核心思想，并衍生出一系列值得关注的研究方向。其源头工作Nemotron-RL-Instruction-Following-Adversarial系列首次将对抗性生成策略与可验证奖励机制有机结合，而本数据集通过Harbor格式的转换，进一步强化了安全性与可复现性。这激发了后续研究者在对抗性指令集自动生成、奖励模型鲁棒性分析以及多智能体协同训练等领域的深入探索。例如，基于该数据集的验证器框架，研究者开发出能够动态适应模型能力的自适应难度调整方法，以及结合LiteLLM实现跨模型裁判一致性的新范式。这些衍生工作共同推动了指令遵循任务从静态评测向动态对抗训练的演进。

数据集最近研究