five

Nemotron-SFT-Safety-v1

收藏
Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-SFT-Safety-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-SFT-Safety-v1数据集旨在使模型在面对未对齐大型语言模型可能出现的各种安全和安保问题时表现稳健。该数据集包含:1) 混合(开源和合成生成)的提示集合,旨在引发不同的模型漏洞;2) 合成生成的响应,旨在引导模型行为符合安全对齐的价值观,并在各种潜在攻击向量中增强模型的鲁棒性。数据集适用于商业用途。 数据集的提示集合包括多个子集,如Nemotron内容安全数据集v2、Gretel安全对齐数据集v1、HarmfulTasks、RedTeam 2k等,以及合成生成的提示,如sdg_oversafety、sdg_jailbreaks等。响应生成技术旨在引导模型生成符合安全行为指南的推理轨迹和助手响应。 数据集采用文本模态,格式为JSONL,包含文本和元数据。总样本量为45,145个,磁盘大小约200MB。数据集适用于监督微调(SFT)以提高模型在安全和安保多个维度上的对齐性,包括对自残、暴力、犯罪计划等有害请求的适当响应,以及对常见越狱策略、网络安全攻击等的鲁棒性。 数据集由NVIDIA Corporation创建,采用CC BY 4.0、Apache 2.0和MIT许可证。使用时应考虑伦理问题,并确保符合相关行业和用例的要求。
提供机构:
NVIDIA
创建时间:
2026-03-09
搜集汇总
数据集介绍
构建方式
在人工智能安全领域,构建高质量的对齐数据集对于提升模型的安全性和鲁棒性至关重要。Nemotron-SFT-Safety-v1数据集采用了一种混合构建策略,综合了开源数据集与合成生成的数据。其提示词集合来源于多个已公开的安全数据集,如Nemotron内容安全数据集v2、Gretel安全对齐数据集v1等,覆盖了自我伤害、暴力、犯罪策划等多种内容安全风险。同时,通过合成生成技术,针对特定安全漏洞(如越狱攻击、潜在提示注入、过度安全拒绝等)创建了补充性的提示词。所有响应均经过精心设计的合成生成流程重新构建,以确保与安全行为指南对齐,并包含推理轨迹,从而为监督微调提供高质量、多样化的安全对齐样本。
特点
该数据集在安全对齐任务中展现出鲜明的特点。其核心在于广泛的覆盖范围,不仅涵盖了传统的内容安全风险类别,还特别强化了对各类越狱攻击、红队测试提示以及模型过度拒绝行为的鲁棒性。通过引入对比性安全提示,数据集有效缓解了模型因过于保守而拒绝一切请求的倾向。此外,数据集还专门设计了针对人口统计偏见缓解和敏感内容泄露防护的样本,体现了对模型输出公平性与合规性的深度考量。总计超过4.5万个样本,结构清晰,类别分明,为模型安全对齐提供了多维度、细粒度的训练资源。
使用方法
该数据集主要用于大型语言模型的监督微调,以提升其在安全与对齐维度上的性能。研究人员和开发者可直接加载其JSONL格式的数据文件,每条数据包含提示词及与之对应的、符合安全价值观的合成响应。在微调过程中,模型将学习如何对各种潜在有害或试探性的用户请求做出恰当、安全的回应,并增强对越狱攻击、提示注入等对抗性策略的抵御能力。使用时应结合具体的模型架构和训练框架,将数据集整合到标准的监督微调流程中。鉴于其商业可用许可,该数据集可安全地集成到各类商业AI应用的开发管线中,以构建更负责任、更可靠的AI系统。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的广泛应用,其安全对齐问题日益凸显,Nemotron-SFT-Safety-v1数据集应运而生。该数据集由NVIDIA公司于2025年12月创建,旨在通过监督微调方法增强模型对各类安全威胁的鲁棒性。其核心研究问题聚焦于缓解未对齐模型可能引发的自我伤害、暴力、犯罪策划及偏见输出等风险,通过整合开源与合成生成的提示-响应对,为模型安全对齐提供了系统化训练资源,对推动可信人工智能发展具有重要影响力。
当前挑战
该数据集致力于解决大型语言模型安全对齐领域的多重挑战,首要挑战在于如何全面覆盖多样化的内容安全风险,包括对抗常见越狱策略、网络攻击及红队测试等复杂攻击向量。构建过程中的挑战则体现在数据合成与整合的复杂性上,需精心设计响应生成技术以引导模型推理轨迹,同时平衡开源数据与合成数据的质量与规模,并有效处理潜在的数据偏见与版权泄露问题,确保训练样本的语义准确性与安全性。
常用场景
经典使用场景
在大型语言模型的安全对齐研究中,Nemotron-SFT-Safety-v1数据集被广泛应用于监督微调流程,以提升模型在面对多样化安全威胁时的鲁棒性。该数据集通过整合开源与合成生成的提示,覆盖了自残、暴力、犯罪策划等有害内容风险,以及对抗越狱攻击、潜在注入攻击等安全漏洞。研究人员利用这些精心设计的提示与响应对,系统性地训练模型识别并拒绝不安全请求,同时避免过度拒绝正常查询,从而在复杂交互场景中实现精准的安全边界控制。
实际应用
在实际部署中,该数据集为开发安全可靠的对话系统与内容生成工具提供了关键支持。企业可将其集成至模型训练管线,以增强产品在客服、教育、医疗等敏感领域的适用性,确保模型输出符合伦理规范与法律法规。例如,在在线内容审核场景中,经该数据集微调的模型能有效识别并拦截暴力或歧视性言论,同时保持对良性查询的响应灵活性,从而在用户体验与安全合规之间达成平衡。
衍生相关工作
基于该数据集衍生的经典工作主要集中在安全对齐技术的创新与评估框架的构建。例如,研究者利用其对比性安全提示开发了针对过度拒绝问题的缓解策略,或结合潜在注入攻击样本设计了新型对抗训练方法。此外,该数据集常被用作基准测试工具,与RedTeam 2k、HarmfulTasks等现有资源协同,推动了对模型鲁棒性、偏见缓解及版权保护能力的跨体系评估,促进了安全人工智能领域的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作