jainsatyam26/aegis-safety-dataset-cleaned

Name: jainsatyam26/aegis-safety-dataset-cleaned
Creator: jainsatyam26
Published: 2026-04-30 10:31:13
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jainsatyam26/aegis-safety-dataset-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: filter_category dtype: string - name: category_name dtype: string - name: is_harmful dtype: int64 - name: turn dtype: string splits: - name: train num_bytes: 13521728 num_examples: 30289 - name: validation num_bytes: 1718542 num_examples: 3786 - name: test num_bytes: 1662377 num_examples: 3787 download_size: 9280750 dataset_size: 16902647 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

jainsatyam26

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，构建高质量的安全数据集至关重要。aegis-safety-dataset-cleaned数据集通过系统化的数据清洗与标注流程构建而成。原始数据经过多轮审核，剔除噪声与冗余信息，最终保留约3.8万条高质量对话样本。每条样本均包含文本内容、过滤类别、类别名称、是否有害标识以及对话轮次等字段，确保数据结构的完整性与一致性。数据集被划分为训练集、验证集和测试集，分别包含30289、3786和3787条样本，为模型的安全对齐训练提供了坚实的数据基础。

特点

该数据集的核心特点在于其精细的安全分类体系与多维度标注机制。每个样本均通过'filter_category'和'category_name'双重标注，明确指示内容的安全类别，而'is_harmful'字段则直接判定样本的有害性，形成二分类判断。此外，'turn'字段记录对话的交互轮次，使数据集能够模拟多轮对话中的安全评估场景。这种结构化设计不仅支持细粒度的安全策略分析，还为构建鲁棒性更强的安全过滤模型提供了丰富的数据支撑。

使用方法

使用该数据集时，研究人员可基于Hugging Face的datasets库直接加载，通过指定split参数获取训练、验证或测试子集。利用'text'字段作为模型输入，'is_harmful'字段作为二分类标签，可训练内容安全分类器；结合'filter_category'和'category_name'字段，能实现多类别安全风险的识别与定位。对于多轮对话场景，'turn'字段可用于序列化建模，评估模型在对话历史中的安全响应能力。数据集的标准化结构降低了预处理成本，便于快速集成至现有安全评估流水线。

背景与挑战

背景概述

随着大语言模型在对话系统、内容生成等领域的广泛应用，模型输出内容的安全性问题日益凸显。为应对这一挑战，Aegis Safety Dataset应运而生，由NVIDIA等机构的研究人员于2023年创建，旨在构建一个高质量、多维度的安全评估基准。该数据集聚焦于识别和分类对话中的有害内容，涵盖仇恨言论、色情、暴力、隐私泄露等关键安全类别，推动模型对齐与负责任的AI发展。其核心研究问题在于如何系统性地评估与缓解语言模型生成有害内容的倾向，对AI安全领域产生了深远影响，成为社区广泛采用的测试床。

当前挑战

aegis-safety-dataset-cleaned旨在解决大语言模型内容安全评估的领域挑战：现有数据集多聚焦于单一危害类型或缺乏细粒度标注，难以覆盖真实对话中复杂的、上下文相关的不安全表述。构建过程中，研究团队面临数据标注一致性难题，需确保不同标注者对“有害”的界定标准统一，并平衡类别分布以避免偏斜。此外，收集高覆盖率、涵盖多种语言与文化的真实有害样例亦极具挑战，需在保护隐私与获取代表性数据间寻求谨慎平衡。

常用场景

经典使用场景

在人工智能安全领域，Aegis安全数据集（清理版）专注于为大语言模型（LLM）提供精细化的安全评估与对齐训练。该数据集精心标注了超过三万条用户与助手的交互文本，每条样本均被标记为有害或无害，并附有详细的分类标签（如仇恨言论、性内容、暴力等），源自英伟达的Aegis Guard模型研发项目。其经典使用场景在于，研究人员可借助此数据构建危害内容检测器，或作为微调指令遵循模型的安全过滤器，从而增强AI系统的鲁棒性。

解决学术问题

该数据集系统性地解决了大语言模型在部署前面临的安全对齐与风险评估挑战。学术层面，它提供了一个多类别、细粒度的基准，用于衡量模型对有害输入的拒答能力，并研究不同类别危害之间的分布与关联。其意义在于推动了从单一“安全/不安全”二元分类向结构化安全标签体系的演进，使得研究者能更精准地量化模型在仇恨言论、色情内容、非法活动等具体维度的脆弱性，为构建负责任AI提供了扎实的数据支撑。

衍生相关工作

基于Aegis安全数据集，衍生出了一系列关键学术成果与工程实践。其中最具代表性的是英伟达提出的Aegis Guard模型，这是一个专门设计用于为LLM输出提供实时安全护栏的专用分类器。此外，该数据集还催生了多种跨领域的安全危害检测方法，如结合对抗训练的动态安全过滤框架、零样本危害分类的提示工程策略，以及在多语言场景下评估文化偏见对安全边界影响的研究工作。这些工作共同构筑了现代AI安全对齐技术的基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集