Nemotron-RL-Safety-v1

Name: Nemotron-RL-Safety-v1
Creator: NVIDIA
Published: 2026-03-11 22:48:35
License: 暂无描述

Hugging Face2026-03-11 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-Safety-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-Safety-v1 数据集旨在为训练奖励模型提供必要的标记比较，以区分安全、有帮助的响应和不受欢迎、不合规的输出。该数据集包含：1. 混合（开源和合成生成）的提示集合，旨在引发不同的模型漏洞；2. 安全偏好对：每个提示与一个被选中的响应和一个被拒绝的响应相关联，为奖励模型提供清晰的训练信号。被选中的响应是安全、有帮助且符合模型行为指南的，而被拒绝的响应则是不安全或不符合推荐响应策略的。数据集适用于商业用途，包含多个底层子集，涵盖内容安全风险、越狱攻击、过度拒绝、人口统计偏见和敏感内容泄露等方面。数据集采用 JSONL 格式，包含 44,941 个独特提示和 89,882 个偏好对，总磁盘大小约为 200MB。该数据集适用于强化学习通过人类反馈（RLHF）的模型对齐，以提高安全性和安全性。

提供机构：

NVIDIA

创建时间：

2026-03-11

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，构建高质量的训练数据对于提升模型的安全对齐能力至关重要。Nemotron-RL-Safety-v1数据集采用混合构建策略，整合了开源数据集与合成生成数据，以覆盖多样化的安全风险场景。具体而言，该数据集从多个现有安全数据集中提取提示，包括Nemotron内容安全数据集、Gretel安全对齐数据集以及针对越狱攻击和红队测试的专项数据。同时，通过合成生成技术，创建了针对过度安全拒绝、潜在提示注入、敏感类别硬拒绝等特定漏洞的对比性提示。所有提示对应的响应均经过精心设计，以生成符合安全行为指南的偏好对，确保训练信号清晰有效。

特点

该数据集的核心特征在于其全面性与针对性，旨在系统性地强化模型在安全维度的鲁棒性。数据集中包含近4.5万个独特提示，并衍生出约9万个偏好对，覆盖了内容安全、越狱攻击防御、过度拒绝缓解、人口统计偏见减轻以及敏感内容泄露防护等多个关键领域。每个提示均关联一个被选中的安全响应与一个被拒绝的非合规响应，形成了明确的对比学习框架。这种结构不仅有助于训练奖励模型准确区分安全与不安全输出，还能通过对比性负样本有效防止模型陷入过度保守的响应模式，从而在安全性与实用性之间达成平衡。

使用方法

该数据集专为基于人类反馈的强化学习流程设计，可直接用于训练奖励模型，以提升语言模型在安全对齐方面的性能。使用时，用户可加载JSONL格式的数据文件，其中每条记录包含提示文本及对应的偏好对。在训练过程中，模型学习区分被选中的安全响应与被拒绝的非合规响应，从而内化安全行为准则。该数据集适用于商业用途，能够帮助开发者增强模型应对自我伤害、暴力、犯罪策划等有害请求的能力，同时提升对越狱攻击、红队测试及潜在注入攻击的抵御力，并缓解模型在年龄等人口统计特征上的偏见输出。

背景与挑战

背景概述

在人工智能安全对齐领域，随着大型语言模型的广泛应用，确保其生成内容的安全性与合规性已成为核心研究议题。Nemotron-RL-Safety-v1数据集由NVIDIA公司于2025年12月创建，旨在为强化学习人类反馈（RLHF）提供高质量的安全偏好标注数据。该数据集整合了开源与合成生成的提示语料，覆盖内容安全风险、对抗性攻击及偏见缓解等多个维度，通过明确的“采纳”与“拒绝”响应对比，为奖励模型训练提供清晰信号，以提升模型在安全对齐方面的鲁棒性与可靠性，对推动可信人工智能发展具有重要影响力。

当前挑战

该数据集致力于解决大型语言模型在安全对齐中的多重挑战：包括应对自我伤害、暴力、犯罪策划等有害请求的适当响应；增强模型对越狱攻击、红队测试等对抗性策略的鲁棒性；通过对比性硬负例缓解模型过度安全导致的拒绝倾向；减少基于年龄等特征的歧视性输出；以及防止潜在受版权保护内容的泄露。在构建过程中，挑战主要源于多源数据的融合与标准化，需协调开源数据集与合成生成提示之间的语义一致性与质量平衡，同时确保响应生成技术严格遵循安全行为指南，以维持标注的准确性与有效性。

常用场景

经典使用场景

在人工智能安全对齐领域，Nemotron-RL-Safety-v1数据集被广泛用于训练奖励模型，以区分安全、有益的响应与不安全或不合规的输出。该数据集通过精心设计的提示词和对应的偏好对，为强化学习从人类反馈（RLHF）流程提供了清晰的训练信号，帮助模型在生成内容时有效规避各类安全风险，如自残、暴力、犯罪策划等有害请求。其混合数据来源与合成生成策略，确保了模型在面对复杂攻击时仍能保持稳健的响应能力。

衍生相关工作

基于该数据集衍生的经典工作包括对强化学习安全对齐算法的改进研究，如针对越狱攻击的对抗训练框架、偏见缓解的多任务学习模型，以及版权保护的内容生成控制机制。这些研究不仅拓展了数据集在网络安全、伦理计算等交叉学科的应用，还为后续开源社区开发更高效的安全评估工具与基准测试套件奠定了数据基础。

数据集最近研究