Nemotron-RL-Instruction-Following-Adversarial-v1

Name: Nemotron-RL-Instruction-Following-Adversarial-v1
Creator: NVIDIA
Published: 2026-03-11 12:34:12
License: 暂无描述

Hugging Face2026-03-11 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1

下载链接

链接失效反馈

官方服务：

资源简介：

inverseIF数据集专注于设计对抗性提示，这些提示明确与AI模型的标准训练本能相冲突，涵盖了8种不同的“反惯例”模式。该数据集采用“模型破坏”方法，通过Nemotron-Nano-V2或Qwen3-235B-A22B-Thinking-2507生成四个候选响应，以测试负面约束是否足够困难以迫使模型表现出默认行为失败。这些响应由人类评委和GPT-5 LLM评委严格评估（要求两者之间至少有85%的一致率），只有当样本成功“破坏”模型时才会被接受（即四个响应中最多有一个通过严格标准，同时展示出差异性）。最终挑战性样本被格式化为包含对抗性提示、真实答案、候选响应和详细的双重评估指标的JSON文件。该数据集作为NVIDIA NeMo Gym的一部分发布，用于训练大型语言模型的强化学习环境。数据集包含100条记录，总存储量为72MB，采用CC-BY 4.0许可，适用于商业用途。

The inverseIF Dataset focuses on designing adversarial prompts that explicitly conflict with the standard training instincts of AI models, covering 8 distinct "anti-convention" patterns. This dataset adopts the "model-breaking" approach, generating four candidate responses via Nemotron-Nano-V2 or Qwen3-235B-A22B-Thinking-2507 to test whether the negative constraints are sufficiently difficult to force the model to fail at its default behavior. These responses are strictly evaluated by both human annotators and GPT-5 LLM annotators, with a required minimum agreement rate of 85% between the two groups. A sample is accepted only when it successfully "breaks" the model, i.e., at most one of the four candidate responses passes the strict criteria while exhibiting distinct differences. The final challenging samples are formatted into JSON files that contain adversarial prompts, ground-truth answers, candidate responses, and detailed dual evaluation metrics. This dataset is released as part of NVIDIA NeMo Gym, serving as a reinforcement learning environment for training large language models. The dataset contains 100 records with a total storage size of 72 MB, and is licensed under CC-BY 4.0 for commercial use.

提供机构：

NVIDIA

创建时间：

2026-03-06

搜集汇总

数据集介绍

构建方式

在对抗性提示生成领域，Nemotron-RL-Instruction-Following-Adversarial-v1数据集采用了一种创新的“模型突破”方法论。其构建过程首先精心设计了八种明确的“反惯例”模式，这些模式旨在与人工智能模型的标准训练本能产生直接冲突，例如要求生成无注释代码或拒绝遵循常规的助人规范。随后，利用Nemotron-Nano-V2或Qwen3-235B-A22B-Thinking-2507等先进模型为每个对抗性提示生成四个候选响应，以测试负面约束是否足够强大以迫使模型偏离其默认行为。为确保样本的挑战性与质量，每个样本都需经过人类评审员与GPT-5大语言模型评审员的双重严格评估，两者间的一致性需达到85%以上。最终，仅当样本成功“突破”模型——即在四个响应中至多有一个通过严格评估标准，且响应间展现出差异性（至少一个通过和一个失败）时，该样本才会被纳入数据集，并格式化为包含提示、真实答案、候选响应及详细评估指标的综合性JSON文件。

特点

该数据集的核心特点在于其高度的对抗性与严谨的评估体系。其内容专门针对大语言模型在指令遵循中根深蒂固的训练惯例进行挑战，通过系统化的“反惯例”模式设计，有效暴露模型在面对非常规或冲突性指令时的脆弱性。数据集规模虽精炼，仅包含100个条目，但每个样本都经过双重评审机制的严格筛选，确保了极高的挑战质量与可靠性。在数据结构上，它采用标准化的JSON格式，与NVIDIA NeMo Gym框架深度兼容，便于在强化学习环境中直接集成与使用。这种设计使得数据集不仅是一个静态的测试集合，更是一个动态的、可用于驱动模型从可验证奖励中进行强化学习（RLVR）的训练环境组成部分，为提升模型的鲁棒性与真实指令遵循能力提供了关键资源。

使用方法

该数据集主要设计用于与NVIDIA的NeMo Gym框架协同工作，以支持大语言模型的后续训练与强化学习。研究人员或开发者首先需将数据集集成到NeMo Gym提供的训练环境中，该环境专为基于可验证奖励的强化学习（RLVR）而构建。在具体应用中，数据集中包含的对抗性提示及其对应的、经过严格评估的响应样本，可作为训练信号或评估基准，用于微调或训练模型，使其学会在面临与常规训练相悖的复杂指令时，仍能做出恰当且符合真实意图的响应。其标准化的JSON格式确保了数据加载与处理的便捷性。用户应遵循其CC-BY 4.0许可协议，并在具体应用场景中结合内部团队评估，以确保符合相关行业与用例的伦理及质量要求。

背景与挑战

背景概述

在大型语言模型（LLM）的指令跟随能力评估领域，传统基准往往侧重于模型对常规、有益指令的遵从性，而忽视了模型在对抗性提示下的鲁棒性。Nemotron-RL-Instruction-Following-Adversarial-v1数据集由NVIDIA公司于2026年3月11日发布，旨在系统性地探究LLMs能否摆脱其固有训练惯例，真正遵循与常规直觉相冲突的复杂指令。该数据集基于‘模型破解’方法论构建，聚焦于八种明确的‘反惯例’模式，如要求生成无注释代码或拒绝标准帮助性规范，其核心研究问题在于检验模型在面临明确负面约束时，是否仍能灵活执行指令，而非简单回归默认行为。作为NVIDIA NeMo Gym强化学习框架的关键组成部分，该数据集为基于可验证奖励的强化学习（RLVR）提供了高质量的训练与评估环境，推动了指令跟随鲁棒性研究的前沿发展。

当前挑战

该数据集致力于解决指令跟随评估中的一个关键挑战：即如何精确衡量大型语言模型在面对故意违反其训练数据中普遍隐含的社会规范或编程惯例的对抗性指令时的表现。具体而言，其挑战在于设计能够有效‘迫使’模型偏离其标准输出模式的提示，而非仅仅测试其常规遵从能力。在构建过程中，主要挑战包括生成足够困难且多样化的对抗性提示样本，确保这些提示能稳定地引发模型‘失败’；以及建立高可靠性的评估机制，该机制需融合人类专家与先进AI模型（如GPT-5）的双重评判，并设定严格的一致性阈值（如85%以上同意率）来筛选真正具有挑战性的样本，从而保证数据集的信度与效度。

常用场景

经典使用场景

在大型语言模型的后训练阶段，Nemotron-RL-Instruction-Following-Adversarial-v1数据集被设计用于强化学习环境，专门针对指令遵循的对抗性测试。该数据集通过精心构建的对抗性提示，模拟了模型在面临与常规训练本能相冲突的指令时的响应行为，例如要求模型编写无注释代码或拒绝提供标准帮助。研究者利用这一数据集，能够系统地评估和提升模型在复杂、非常规情境下的鲁棒性与泛化能力，从而优化模型在实际部署中的指令遵循性能。

解决学术问题

该数据集致力于解决大型语言模型中普遍存在的“训练惯例固化”问题，即模型过度依赖训练数据中的常见模式，难以灵活适应真实世界中多变且可能违反常规的指令。通过引入八种明确的“反惯例”模式，数据集为学术研究提供了量化模型“去学习”能力的基准，帮助探索模型如何突破固有行为约束，实现更精准的指令理解与执行。这不仅推动了对抗性测试方法论的发展，也为理解模型泛化边界提供了关键实证依据。

衍生相关工作

围绕该数据集，已衍生出多项重要的相关研究。其方法论直接支撑了《Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?》等学术论文，深入探讨了模型“去学习”训练惯例的机制。同时，作为NVIDIA NeMo Gym框架的核心组成部分，它促进了强化学习从可验证奖励（RLVR）方向的发展，为Nemotron等模型家族的训练提供了关键环境，并激励了后续更多针对模型鲁棒性与对抗性评估的基准数据集和训练范式的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集