five

Nemotron-SFT-Safety-v2-prompt-only

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/jamesdborin/Nemotron-SFT-Safety-v2-prompt-only
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-SFT-Safety-v2-prompt-only是一个从源数据集nvidia/Nemotron-SFT-Safety-v2中提取的仅包含提示(prompt)的数据集。它专为监督微调(SFT)和安全对齐任务设计,适用于大语言模型的提示工程、安全微调或预处理工作流。数据集包含一个核心CSV文件(prompts.csv),其中每条记录对应一个提示提取,字段包括用户提示(prompt)、分离的系统提示(system_prompt)以及结构化的工具定义(tools,当源行中定义可用工具时),嵌套值以JSON格式编码在CSV单元格内。此外,还提供统计摘要文件(summary.md)和空提示行索引文件(null_or_empty_rows.md)用于数据质量检查。数据集规模为130,350条提取行,无失败提取行,行数差值为0。该数据集由Nemotron后训练v3提示提取工作流生成,并通过jamesdborin账户上传。

Nemotron-SFT-Safety-v2-prompt-only is a dataset extracted from the source dataset nvidia/Nemotron-SFT-Safety-v2 that contains only prompts. It is specifically designed for supervised fine-tuning (SFT) and safety alignment tasks, suitable for prompt engineering, safety fine-tuning, or preprocessing workflows in large language models. The dataset includes a core CSV file (prompts.csv), where each record corresponds to a prompt extraction, with fields including user prompt (prompt), separated system prompt (system_prompt), and structured tool definitions (tools, when available tools are defined in the source row), with nested values encoded in JSON format within CSV cells. Additionally, statistical summary files (summary.md) and null or empty row index files (null_or_empty_rows.md) are provided for data quality checks. The dataset scale is 130,350 extracted rows, with no failed extraction rows and a row count difference of 0. This dataset is generated by the Nemotron post-training v3 prompt extraction workflow and uploaded via the jamesdborin account.
创建时间:
2026-06-29
原始信息汇总

数据集概述

名称:Nemotron-SFT-Safety-v2-prompt-only

来源:源自 nvidia/Nemotron-SFT-Safety-v2 数据集,仅提取提示(prompt)部分。

标签:nemotron, prompt-only, post-training

数据集内容

  • 文件结构

    • prompts.csv:每行对应源数据集中的一条记录,包含字段:
      • prompt:提示内容
      • system_prompt:分离的系统提示
      • tools:当源行定义了可用工具时,以JSON编码格式呈现的结构化工具信息(嵌套值在CSV单元格中编码)
    • summary.md:记录源行数、提取行数、行数差异及失败的提示数量
    • null_or_empty_rows.md:记录提示提取产生空值或空提示的行索引
  • 数据统计

    • 提取行数:130,350
    • 失败提示行数:0
    • 行数差异:0

其他信息

  • 发布者:由 jamesdborin 上传,源自 Nemotron Post-Training v3 提示提取器工作流。
  • 配置:仅包含 default 配置,训练集(train 分割)数据文件为 prompts.csv
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-SFT-Safety-v2-prompt-only数据集源于NVIDIA发布的Nemotron-SFT-Safety-v2原始数据集,通过后训练阶段的提示提取工作流对原始数据进行精炼处理。具体而言,从原始数据集的每一行记录中提取出单一提示条目,形成结构化的prompts.csv文件。每条记录包含提示文本、分离的系统提示以及结构化工具定义(若原始记录中定义了可用工具),嵌套值以JSON编码形式嵌入CSV单元格中。提取过程中未产生失败提示,行数与原始数据集保持一致,确保了数据的完整性与一致性。
特点
该数据集的核心特点在于其聚焦于提示子集的精炼提取,保留了原始安全微调数据集的关键交互要素,同时通过结构化重组提升了可用性。数据规模达130350条提取记录,支持系统提示与工具定义的独立访问,为后训练场景下的安全对齐研究提供了精确的输入素材。此外,数据集附带摘要文件与空值行索引文件,增强了数据的可追溯性与质量透明度,便于研究者快速定位潜在异常。
使用方法
使用Nemotron-SFT-Safety-v2-prompt-only时,可直接加载prompts.csv文件,利用提示文本、系统提示和工具定义字段构建模型输入。研究者可依据安全微调或对齐实验需求,灵活组合这些结构化字段,例如将系统提示与用户提示拼接后输入模型,或通过解析工具定义模拟具身智能体的交互场景。数据易用性高,适用于基于提示的对抗性测试、安全策略评估以及后训练阶段的提示工程研究,无需额外处理原始数据集的复杂嵌套结构。
背景与挑战
背景概述
Nemotron-SFT-Safety-v2-prompt-only数据集由NVIDIA研究团队于近期创建,旨在为大语言模型的安全对齐与后训练阶段提供高质量的提示(prompt)数据。该数据集从原始的nvidia/Nemotron-SFT-Safety-v2中提取,专注于保留系统提示、工具定义等结构化信息,以支持模型在安全监督微调(SFT)场景下的训练与评估。作为Nemotron后训练流程的关键组件,该数据集解决了当前大语言模型在复杂交互中安全性与可控性不足的核心问题,为构建更可靠的AI系统提供了数据基础。其影响力体现在为后训练阶段的安全性研究开辟了新的数据维度,尤其是针对需要工具调用或多轮对话的复杂场景。
当前挑战
该数据集所面临的挑战主要体现在两个方面。首先,在领域问题层面,大语言模型在后训练阶段的安全对齐需要大量结构化、多样化的提示数据,以应对越狱攻击、有害内容生成等风险,而现有数据集往往缺乏对系统提示和工具调用的精细标注。其次,在构建过程中,从原始数据集提取提示时需确保结构化信息(如JSON编码的工具定义)的完整性与一致性,同时处理不同来源行之间的格式差异,避免数据丢失或解析错误。此外,如何平衡数据规模与质量,确保提取出的130350条提示均能有效反映真实安全场景,也是一个持续存在的挑战。
常用场景
经典使用场景
Nemotron-SFT-Safety-v2-prompt-only 数据集作为大规模、高质量的安全指令微调数据子集,主要用于提升大语言模型在复杂、敏感场景下的安全对齐能力。研究者常将其中的系统提示、用户输入与结构化工具调用信息作为训练数据,用于强化模型对有害请求的防御机制与合规性响应。该数据集的纯提示格式便于直接与其他安全合规数据混合使用,广泛应用于构建稳健的安全护栏模型,确保模型在开放域对话中保持伦理标准与法律合规,是后训练阶段安全对齐的核心数据资源。
衍生相关工作
基于该数据集,学术界与工业界衍生出一系列经典工作,包括对抗性提示攻击检测器训练、安全对齐的强化学习奖励模型优化,以及多任务安全约束下的指令微调策略。它还被用作安全基准测试集,催生了如Red-Teaming评估、安全护栏效果对比等研究范式。部分工作将其与更大的安全对齐数据集结合,开发出具有跨领域迁移能力的安全模型,进一步推动了后训练阶段安全微调与模型伦理对齐的标准化方法论。
数据集最近研究
最新研究方向
随着大型语言模型安全对齐研究的深化,高通量安全提示数据集成为后训练阶段的核心基础设施。Nemotron-SFT-Safety-v2-prompt-only作为从NVIDIA完整安全数据集中精炼提取的纯提示版本,聚焦于解耦系统指令、工具调用与用户提示的结构化关系。该数据集剔除冗余标签后保留十三万零三百五十条高质量安全提示,为模型安全微调提供了零噪音的语料基础。当前前沿方向集中于利用此类结构化提示数据构建对抗性安全评估框架,通过系统提示与工具调用的联合建模,提升模型在复杂多轮交互中的越狱攻击抵抗力。其轻量化设计更适配分布式训练场景,成为安全对齐实验中隔离变量影响的标准化工具,直接影响下一代护栏模型的鲁棒性验证范式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务