Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/jamesdborin/Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only 是一个从源数据集 nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1 中提取的仅包含提示部分的数据集，旨在为指令跟随和对抗性场景下的后训练任务提供结构化提示数据。其核心文件 prompts.csv 包含每条记录的提示（用户提示）、可选的系统提示以及以 JSON 格式编码的工具信息字段。数据集规模为 1000 条提取行，与源行数一致，无提取失败行，并附带摘要和空行记录辅助文件。该数据集适用于大型语言模型的指令微调、提示工程、工具使用能力评估以及对抗性提示生成等研究与应用。

Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only is a dataset extracted solely from the prompt portions of the source dataset nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1, designed to provide structured prompt data for post-training tasks in instruction-following and adversarial scenarios. The core file, prompts.csv, includes each records prompt (user prompt), optional system prompt, and a tools field encoded in JSON format when tools are defined in the source row. The dataset consists of 1000 extracted rows, matching the source row count with no extraction failures, and is accompanied by auxiliary files for summary and null/empty row tracking. It is suitable for research and applications such as instruction fine-tuning of large language models, prompt engineering, tool usage evaluation, and adversarial prompt generation.

创建时间：

2026-06-26

原始信息汇总

数据集概述：Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only

该数据集是从 nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1 中提取的纯提示词版本，主要用于后训练阶段的指令遵循与对抗性训练。

数据结构

文件格式：包含一个 prompts.csv 文件，每行对应源数据集中一条记录的提示词提取结果。
字段说明：
- prompt：提取的提示词文本。
- system_prompt：分离出的系统提示词。
- tools：当源记录定义了可用工具时，以 JSON 编码的结构化工具信息（嵌套在 CSV 单元格中）。

统计信息

提取行数：1000 条
失败的提示行数：0 条
行数变化：0（与源数据集行数一致）

附加文档

summary.md：包含源记录行数、提取行数、行数变化量及失败提示计数的摘要。
null_or_empty_rows.md：列出提示词提取结果为 null 或空字符串的行索引。

来源与用途

数据集由 jamesdborin 上传，源自 Nemotron Post-Training v3 提示词提取工作流。
适用于需要纯提示词（不含模型响应）的指令遵循与对抗性训练场景。

搜集汇总

数据集介绍

构建方式

该数据集源自NVIDIA发布的Nemotron-RL-Instruction-Following-Adversarial-v1原始数据集，通过后训练提示提取流程，从每个源记录中提取出独立的提示信息。提取过程保留了原记录中的`prompt`字段，并将嵌套的系统提示`system_prompt`以及结构化工具`tools`信息以JSON编码格式嵌入CSV单元格中，从而构建出仅含提示内容的精简版本。数据集共包含1000条提取记录，提取成功率为100%，没有产生空或无效提示。

使用方法

数据集以CSV格式存储，主文件`prompts.csv`提供了可直接加载的提示数据。用户可使用Python的`csv`模块或`pandas`库读取，并利用`json.loads`解析嵌套的`tools`字段。该数据集可直接用于微调语言模型的指令遵循能力，或作为对抗性提示的评估基准，例如在奖励建模或强化学习训练流程中作为输入策略的测试源。

背景与挑战

背景概述

Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only数据集由NVIDIA研究人员于后训练阶段创建，隶属于Nemotron系列，聚焦于指令遵循能力的对抗性评估。该数据集从完整版本中提取纯提示部分，包含1000条精心设计的提示记录，涵盖系统提示、结构化工具调用等复杂场景。其核心研究问题在于如何通过对抗性样本提升大型语言模型对复杂指令的理解与执行能力，尤其在多工具协同与上下文依赖的指令遵循任务中。作为后训练质量评估的关键资源，它推动了指令微调与强化学习范式的边界探索，对提升LLM在真实应用中的鲁棒性与可靠性具有重要影响。

当前挑战

该数据集面临的挑战主要体现在两个维度：其一，领域问题层面，当前大型语言模型在处理包含嵌套工具调用、隐式约束或矛盾指令的对抗性提示时，常出现指令忽略、工具误用或输出不一致等缺陷，亟需构建能有效量化模型指令遵循能力的基准；其二，构建过程中，从原始数据集中提取纯提示部分需处理JSON嵌套解析、系统提示与工具分离等复杂工程问题，同时需保证提取后的提示仍能忠实反映原始对抗性场景，避免信息丢失。此外，如何生成足够多样化且难易适中的对抗性提示以覆盖各类失败模式，亦是持续挑战。

常用场景

经典使用场景

Nemotron-RL-Instruction-Following-Adversarial-v1-prompt-only数据集在强化学习与指令遵循的交叉领域中扮演着关键角色。其核心设计聚焦于对抗性提示样本，通过精心构造的指令来挑战和评测语言模型对复杂、模糊甚至带有欺骗性请求的理解与执行能力。研究者通常利用该数据集进行偏好对齐训练，例如通过奖励模型或强化学习算法，引导模型学习如何在压力测试下依然保持准确的指令遵循，从而提升模型的鲁棒性和安全性。

解决学术问题

该数据集直接回应了当前大语言模型在指令遵循中面临的脆弱性问题，即模型容易受到对抗性提示的干扰而输出错误或有害内容。通过提供1000条高质量的对抗性提示，它解决了学术界缺乏标准化、针对性的对抗性测试基准的困境。其意义在于推动了模型对齐研究从常规场景向更复杂的真实恶意攻击场景延伸，为评估和提升模型的安全性、合规性以及抵御诱导性指令的能力提供了关键实验素材，深刻影响了后训练阶段的安全微调范式。

实际应用

在实际工业界中，该数据集可用于构建和优化聊天机器人、虚拟助手以及内容审核系统的指令遵循防线。企业能够将其整合到模型发布前的红队测试流程中，自动识别并修复模型在面对恶意用户或对抗性输入时的潜在漏洞。此外，它还可服务于金融、医疗等高风险领域，用于验证AI系统在严格合规要求下的响应可靠性，确保系统不会因误导性指令而做出错误决策，从而增强用户对自动化服务的信任。

数据集最近研究