nemotron-gym-instruction-following-adversarial-v2
收藏Hugging Face2026-05-18 更新2026-05-19 收录
下载链接:
https://huggingface.co/datasets/laion/nemotron-gym-instruction-following-adversarial-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1数据集的Harbor格式转换版本,标识为laion/nemotron-gym-instruction-following-adversarial-v2。它属于强化学习任务范畴,专注于指令跟随和对抗性环境,并涉及可验证的奖励机制(可能使用大型语言模型作为评判者)。数据集规模在1000到10000个样本之间,语言为英语,采用CC-BY-4.0许可证。v2版本修复了原始v1版本中存在的一个关键问题:v1版本中,由于LLM-judge验证器在沙盒容器中运行时缺少必要的API密钥凭据(如OPENAI_API_KEY),导致所有调用失败,奖励值默认设置为0.0,从而使任务解决率为0%。v2版本通过在task.toml配置文件中添加[verifier.env]配置块,确保Harbor能够将主机环境中的OPENAI_API_KEY(以及可选的JUDGE_MODEL参数)正确传递到验证器容器内部,从而恢复了奖励验证功能。该数据集由OpenThoughts-Agent项目中的data/nemotron_gym适配器生成。
This dataset is a Harbor-format converted version of the nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1 dataset, identified as laion/nemotron-gym-instruction-following-adversarial-v2. It falls under the reinforcement learning task category, focusing on instruction following and adversarial environments, and involves verifiable reward mechanisms (possibly using large language models as judges). The dataset size ranges from 1000 to 10000 samples, is in English, and uses the CC-BY-4.0 license. The v2 version fixes a critical issue in the original v1 version: in v1, due to the LLM-judge verifier lacking necessary API key credentials (such as OPENAI_API_KEY) when running in a sandbox container, all calls failed, and reward values were defaulted to 0.0, resulting in a 0% task solution rate. The v2 version adds a [verifier.env] configuration block in the task.toml file, ensuring that Harbor correctly passes the OPENAI_API_KEY (and optionally JUDGE_MODEL parameters) from the host environment into the verifier container, thereby restoring reward verification functionality. This dataset is generated by the data/nemotron_gym adapter in the OpenThoughts-Agent project.
提供机构:
LAION eV
创建时间:
2026-05-18
原始信息汇总
数据集概述
数据集名称:laion/nemotron-gym-instruction-following-adversarial-v2
许可证:CC-BY-4.0
任务类别:强化学习(reinforcement-learning)
语言:英语(en)
标签:harbor, nemotron-gym, rl, verifiable-rewards
数据规模:1,000 < n < 10,000
数据集来源与转换
该数据集是对 nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1 的 Harbor 格式转换版本。
v2 版本修复说明
- v1 问题:由于 LLM 判断验证器在沙箱容器中运行时缺少凭据,导致每次调用
verifier失败,回报分数默认设为 0.0,因此 v1 的解决率为 0%。 - v2 修复:在
task.toml中添加了[verifier.env]块,使得 Harbor 能够将宿主环境中的OPENAI_API_KEY(以及可选的JUDGE_MODEL)传播到验证器容器中,与adapters/strongreject中的约定保持一致。
生成方式
该数据集由 OpenThoughts-Agent 项目中的 data/nemotron_gym 适配器生成。
搜集汇总
数据集介绍

构建方式
该数据集源自NVIDIA发布的Nemotron-RL-Instruction-Following-Adversarial-v1,经Harbor格式转换后构建而成。构建过程通过OpenThoughts-Agent项目中的nemotron_gym适配器实现,将原始数据集转化为Harbor兼容格式,确保其能够在强化学习环境中高效运行。v2版本专门修复了v1中因沙箱容器缺失凭证导致求解率为0%的严重缺陷,新增了[verifier.env]配置块,使得Harbor能够将宿主机的OPENAI_API_KEY和可选的JUDGE_MODEL变量传递至验证器容器,从而保证LLM评判机制正常运作。
特点
该数据集的核心特点在于其对抗性指令遵循任务设计,专门用于评估和训练强化学习模型在复杂指令下的表现。数据集规模介于1K至10K之间,中等容量使其适用于精细化调优。其独特之处在于采用可验证奖励机制(verifiable-rewards),通过LLM评判器对模型输出进行自动评分,避免了人工标注的主观偏差。v2版本的修复显著提升了数据集的实用性与可靠性,确保了奖励信号的有效性,成为研究指令遵循行为与对抗性场景下模型鲁棒性的优质资源。
使用方法
该数据集专为强化学习场景设计,用户可通过Harbor框架直接加载使用。使用方法需配合Harbor环境,通过task.toml配置文件中的[verifier.env]块设置OPENAI_API_KEY和JUDGE_MODEL等环境变量,确保验证器容器能够调用外部LLM进行评分。数据集以Harbor格式存储,可直接用于训练和评估强化学习智能体,通过与OpenThoughts-Agent项目的结合,支持自定义适配器扩展。建议用户在利用该数据时,预先配置好所需的API密钥与模型参数,以充分发挥对抗性指令遵循任务的训练效果。
背景与挑战
背景概述
nemotron-gym-instruction-following-adversarial-v2数据集由LAION与NVIDIA团队合作创建,旨在服务于强化学习领域的指令遵循对抗性训练任务。该数据集基于NVIDIA先前发布的Nemotron-RL-Instruction-Following-Adversarial-v1版本进行改进,核心研究问题在于提升大型语言模型在对抗性环境下的指令遵循能力,并通过可验证奖励机制优化模型行为。作为开放科学与工业界协作的产物,该数据集采用CC-BY-4.0许可协议,为强化学习中的reward建模、红队测试及鲁棒性提升提供了标准化基准,对推动语言模型安全性与可靠性研究具有重要影响。
当前挑战
该数据集面临的挑战主要体现在两个层面:首先,在领域问题层面,如何设计能有效检测模型指令遵循漏洞的对抗性样本,并构建可泛化的奖励函数,是强化学习训练中的核心难题;其次,在构建过程中,v1版本曾因LLM评判验证器在沙箱环境中无法获取OpenAI API密钥,导致所有尝试的求解率为0%,暴露出环境配置与认证传递的严重缺陷。v2版本通过Harbor框架的verifier环境变量传播机制修复了该问题,但如何确保不同部署场景下的验证器可重复性与结果一致性,仍是持续存在的工程挑战。
常用场景
经典使用场景
在强化学习与语言模型对齐的研究领域中,nemotron-gym-instruction-following-adversarial-v2 数据集被设计为一种对抗性训练基准,专门用于评估和提升大语言模型对指令遵循能力的鲁棒性。该数据集通过构造具有挑战性的对抗性指令示例,引导模型在复杂或易混淆的提示下依然能够准确理解并执行人类意图。其经典使用场景包括作为奖励模型的验证集、强化学习策略的对抗性训练样本,以及指令遵循能力的压力测试工具,为研究者提供了一个标准化、可复现的评测平台,以衡量模型在极端条件下的表现。
解决学术问题
该数据集有效解决了大语言模型在指令遵循任务中面对对抗性扰动时性能退化严重的学术难题。以往指令遵循评测多聚焦于常规场景,缺乏对模型边界行为的系统性探索。nemotron-gym-instruction-following-adversarial-v2 引入了精细化标注的对抗性指令样本,使研究者能够深入分析模型失败模式,并据此优化训练策略。其意义在于推动了鲁棒对齐理论的发展,促使学界从追求平均性能转向关注极端情况下的可靠性,为构建安全可信的语言代理迈出了关键一步。
衍生相关工作
基于该数据集衍生了多项经典工作,例如将对抗性指令遵循挑战转化为强化学习中的可验证奖励模型,催生了诸如 Nemotron-RL 系列中针对鲁棒性的奖励设计方法。研究者还借鉴其对抗性样本构造思路,开发出面向多轮对话的对抗性基准,以及结合推理链的指令鲁棒性训练框架。这些衍生工作不仅扩展了数据集本身的应用边界,还深化了对语言模型行为边界的理解,促进了从单点防御到系统性对齐策略的演进,形成了活跃的研究脉络。
以上内容由遇见数据集搜集并总结生成



