Aegis-AI-Content-Safety-Dataset-2.0
收藏Hugging Face2025-01-16 更新2025-01-17 收录
下载链接:
https://huggingface.co/datasets/nvidia/Aegis-AI-Content-Safety-Dataset-2.0
下载链接
链接失效反馈官方服务:
资源简介:
Aegis AI Content Safety Dataset 2.0 包含33,416条人类与LLM之间的注释交互,分为30,007条训练样本、1,445条验证样本和1,964条测试样本。该数据集是之前发布的Aegis 1.0内容安全数据集的扩展。数据集通过使用HuggingFace版本的人类偏好数据(来自Anthropic HH-RLHF)进行策划,仅提取提示,并从Mistral-7B-v0.1中引出响应。数据集遵循一个全面且可适应的安全风险分类法,分为12个顶级危险类别和9个细粒度子类别。数据集采用混合数据生成管道,结合了全对话级别的人类注释和多LLM“陪审团”系统来评估响应的安全性。
Aegis AI Content Safety Dataset 2.0 contains 33,416 annotated interactions between humans and LLMs, split into 30,007 training samples, 1,445 validation samples, and 1,964 test samples. This dataset is an extension of the previously released Aegis 1.0 Content Safety Dataset. The dataset is curated using HuggingFace-hosted human preference data sourced from Anthropic HH-RLHF, where only the prompts are extracted, and responses are elicited from Mistral-7B-v0.1. It follows a comprehensive and adaptable safety risk taxonomy, categorized into 12 top-level hazardous categories and 9 fine-grained subcategories. The dataset adopts a hybrid data generation pipeline that combines full-conversation-level human annotations and a multi-LLM "jury" system to evaluate the safety of model responses.
提供机构:
NVIDIA
创建时间:
2025-01-10
搜集汇总
数据集介绍

构建方式
Aegis AI Content Safety Dataset 2.0 的构建采用了混合数据生成管道,结合了人类注释和多LLM“陪审团”系统来评估响应的安全性。数据集的核心来源于Anthropic HH-RLHF的人类偏好数据,并通过Mistral-7B-v0.1生成响应。此外,数据集还通过多个LLM(如Mixtral-8x22B-v0.1、Mistral-NeMo-12B-Instruct和Gemma-2-27B-it)进行响应安全标签的增强。数据集的构建过程中,还引入了拒绝数据和主题跟随数据,以增强模型的鲁棒性和适应性。
特点
Aegis AI Content Safety Dataset 2.0 包含了33,416条人类与LLM交互的注释数据,分为训练集、验证集和测试集。数据集涵盖了12个顶级危险类别和9个细粒度子类别,适用于内容安全分类任务。数据集的特点在于其全面的安全风险分类体系,以及通过多LLM系统增强的响应安全标签。此外,数据集还包含了拒绝数据和主题跟随数据,进一步提升了模型的适应性和鲁棒性。
使用方法
Aegis AI Content Safety Dataset 2.0 主要用于构建LLM内容安全防护系统,适用于训练提示和响应内容的安全分类模型。数据集还可用于通用LLM的安全对齐任务,通过安全与不安全偏好对进行模型训练。使用该数据集时,需注意其包含的敏感内容,并确保在研究和开发过程中遵循伦理和法律标准。数据集的结构清晰,包含多个列字段,便于用户进行数据分析和模型训练。
背景与挑战
背景概述
Aegis-AI-Content-Safety-Dataset-2.0是由NVIDIA的NeMo Guardrails团队于2024年发布的一个专注于内容安全的数据集。该数据集旨在为大语言模型(LLMs)的内容安全护栏提供训练数据,涵盖了33,416条人类与LLMs之间的交互数据,分为训练、验证和测试集。数据集的构建基于Anthropic HH-RLHF的人类偏好数据,并通过Mistral-7B-v0.1模型生成响应。数据集采用了一种混合数据生成管道,结合了人类注释和多LLM“陪审团”系统来评估响应的安全性。该数据集的核心研究问题是如何通过多样化的安全风险分类体系来提升LLMs的安全性和内容审核能力。
当前挑战
Aegis-AI-Content-Safety-Dataset-2.0面临的挑战主要包括两个方面。首先,在领域问题方面,数据集旨在解决LLMs生成内容的安全性问题,特别是如何有效检测和过滤有害内容,如仇恨言论、暴力、自杀倾向等。这些内容的多样性和复杂性使得模型在识别和分类时面临巨大挑战。其次,在数据构建过程中,数据集依赖于多LLM系统的评估,这可能导致评估结果的不一致性。此外,数据集中包含的敏感内容对标注人员的心理健康提出了较高要求,如何在保证数据质量的同时保护标注人员的心理健康也是一个重要挑战。
常用场景
经典使用场景
Aegis AI Content Safety Dataset 2.0 主要用于训练和评估大型语言模型(LLMs)的内容安全防护系统。该数据集通过标注人类与LLMs之间的交互数据,帮助研究人员识别和分类潜在的有害内容,如仇恨言论、暴力、自杀倾向等。其经典使用场景包括构建内容审核模型,确保LLMs在生成文本时能够避免产生有害或不当的内容。
实际应用
在实际应用中,Aegis AI Content Safety Dataset 2.0 被广泛用于开发内容审核系统和LLMs的安全防护机制。例如,社交媒体平台可以利用该数据集训练模型,自动检测和过滤用户生成的有害内容。此外,企业也可以将其用于内部聊天机器人的安全防护,确保员工与AI系统的交互符合公司政策和法律法规。
衍生相关工作
基于Aegis AI Content Safety Dataset 2.0,许多相关研究工作得以展开。例如,研究人员开发了基于多LLM陪审团系统的内容安全评估框架,进一步提升了模型对有害内容的识别能力。此外,该数据集还启发了对LLMs安全对齐策略的深入研究,推动了如Gemma-2-27B等模型在安全防护方面的优化和改进。
以上内容由遇见数据集搜集并总结生成



