nemotron-nano2-safety-distill-gptoss

Hugging Face2025-10-22 更新2025-10-22 收录

内容安全

自然语言处理

数据链接：

https://huggingface.co/datasets/Ericwang/nemotron-nano2-safety-distill-gptoss 数据链接链接失效反馈

官方服务：

资源简介：

Nemotron Nano 2 安全精简数据集，使用Nemotron Nano 2配方和GPT-OSS-20B及GPT-OSS-120B作为教师模型创建。由于资源限制，生成的推理步骤和响应没有经过守门模型的过滤。该数据集包含大约35,000个示例，可能会在未来版本中增加。数据来源于Nemotron内容安全数据集V2、gretel-v1、HarmfulTasks和RedTeam2K。

Nemotron Nano 2 Safety Trimmed Dataset is created using the Nemotron Nano 2 recipe, with GPT-OSS-20B and GPT-OSS-120B serving as the teacher models. Due to resource constraints, the generated inference steps and responses were not filtered by the moderation model. This dataset contains approximately 35,000 examples, and the sample size may be expanded in future versions. The data is sourced from the Nemotron Content Safety Dataset V2, gretel-v1, HarmfulTasks, and RedTeam2K.

创建时间：

2025-10-21

原始信息汇总

Nemotron Nano 2 Safety Distill — GPT-OSS 数据集概述

数据集简介

基于Nemotron Nano 2安全配方创建的安全蒸馏数据集
使用GPT-OSS-20B和GPT-OSS-120B作为教师模型
包含约35,000个示例（截至2025年10月21日）
专为AI安全研究设计

数据来源

Aegis AI内容安全数据集v2.0
- 来源：https://huggingface.co/datasets/nvidia/Aegis-AI-Content-Safety-Dataset-2.0
Gretel安全对齐数据集v1
- 来源：https://huggingface.co/datasets/gretelai/gretel-safety-alignment-en-v1
恶意任务数据集
- 来源：https://github.com/CrystalEye42/eval-safety/blob/main/malicious_tasks_dataset.yaml
RedTeam-2K数据集
- 来源：https://huggingface.co/datasets/JailbreakV-28K/JailBreakV-28k/viewer/RedTeam_2K

数据集结构

配置子集

aegis: 21,952个训练样本，1,244个验证样本，1,964个测试样本
gretel-safety-alignment: 5,994个训练样本，1,181个验证样本，1,183个测试样本
malicious-tasks: 225个训练样本
redteam2k: 2,000个训练样本

数据特征

所有子集包含以下核心字段：

id: 数据点标识符
prompt: 可能包含有害内容的输入提示
reasoning_20b: GPT-OSS-20B的推理步骤
response_20b: GPT-OSS-20B的响应
reasoning_120b: GPT-OSS-120B的推理步骤
response_120b: GPT-OSS-120B的响应
metadata: 源数据集的附加元数据

元数据结构

aegis配置元数据字段：

prompt_label
prompt_label_source
reconstruction_id_if_redacted
response
response_label
response_label_source
violated_categories

gretel-safety-alignment配置元数据字段：

judge_response_reasoning
judge_response_score
judge_safe_response_reasoning
judge_safe_response_score
persona
response
response_probability_of_harm
risk_category
safe_response
safe_response_probability_of_harm
sub_category
tactic

malicious-tasks配置元数据字段：

category
severity
subcategory

redteam2k配置元数据字段：

from
policy

技术规格

任务类别: 文本生成、问答
语言: 英语
标签: gpt-oss、distillation、reasoning、ai-safety
规模类别: 10K-100K样本

警告说明

数据集包含可能有害的提示内容，仅限研究用途，使用时需负责任。

搜集汇总

数据集介绍

nemotron-nano2-safety-distill-gptoss 数据集图片

构建方式

在人工智能安全研究领域，本数据集采用知识蒸馏技术框架，整合了四个权威安全评估数据源。通过GPT-OSS-20B和GPT-OSS-120B作为教师模型，对原始提示进行推理和响应生成，构建过程遵循Nemotron Nano 2安全配方标准。数据采集涵盖Aegis AI内容安全数据集、Gretel安全对齐数据集、恶意任务数据集和红队测试数据集，确保覆盖多样化的安全风险场景。生成阶段采用vLLM推理框架，配置温度参数1.0和最高推理强度，每个样本均包含双模型生成的推理过程和最终响应。

特点

该数据集的核心特征体现在多维度安全评估框架的设计上，包含超过35,000个经过精心筛选的样本实例。每个数据点均配备完整的元数据结构，详细记录原始提示的安全标签、风险分类和违规类别等关键信息。特别值得关注的是，每个样本同时包含20B和120B参数规模模型的推理轨迹与响应内容，为研究模型规模与安全性能的关联性提供宝贵数据。数据集采用标准化分割方案，包含训练集、验证集和测试集，确保评估的严谨性与可复现性。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，支持按子集名称分别访问aegis、gretel-safety-alignment等四个独立配置。典型应用流程包括加载指定分割的数据切片，提取提示文本与对应模型响应，进而开展安全对齐性能的定量分析。使用过程中需特别注意伦理规范，仅限用于负责任的AI安全研究目的。数据字段设计便于直接对接主流的机器学习框架，支持从基础的安全分类到复杂的推理模式分析等多种研究场景。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其安全性与对齐问题逐渐成为研究焦点。Nemotron-nano2-safety-distill-gptoss数据集于2025年创建，基于Nemotron Nano 2安全蒸馏方法构建，整合了来自NVIDIA、Gretel AI等机构的多源安全数据集。该数据集通过GPT-OSS-20B和GPT-OSS-120B作为教师模型生成推理步骤与响应，致力于解决语言模型在面临恶意提示时的安全风险问题，为人工智能安全对齐研究提供了重要数据支撑。

当前挑战

在构建安全对齐数据集过程中，面临多重技术挑战：首先需要精确识别各类恶意提示的语义特征，包括仇恨言论、违法内容等复杂风险类别；其次在蒸馏过程中需平衡模型生成质量与安全过滤的冲突，由于资源限制未采用防护模型进行二次筛选。领域层面需应对对抗性攻击的多样性，如红队测试中的越狱攻击手法演变，以及不同风险分类体系间的语义对齐难题，这些都对数据集的完整性与可靠性提出严格要求。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集通过整合多个权威安全评估资源，为大型语言模型的安全对齐研究提供了标准化测试平台。其核心价值在于利用GPT-OSS系列模型生成的多尺度推理轨迹与响应，构建了涵盖恶意指令识别、风险分类等维度的评估体系，成为检测模型抗越狱能力和安全响应机制的重要基准。

解决学术问题

该数据集有效解决了语言模型安全研究中的三大核心问题：通过多源风险标注体系建立了细粒度危害分类标准，利用蒸馏技术实现了安全知识的跨模型迁移，并构建了覆盖200余种攻击场景的评估框架。这些特性显著提升了模型对潜在危害的感知精度，为可解释性安全研究提供了结构化数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括采用对比蒸馏技术的安全对齐框架SafeDistill、结合元学习的安全策略迁移方法MetaGuard，以及利用多模态风险感知的跨领域安全评估体系。这些工作通过扩展数据集的标注维度与评估范式，持续推动着可解释AI安全研究的前沿发展。

以上内容由遇见数据集搜集并总结生成