AEGIS2.0

arXiv2025-01-16 更新2025-01-17 收录

下载链接：

http://arxiv.org/abs/2501.09004v1

下载链接

链接失效反馈

官方服务：

资源简介：

AEGIS2.0 是由英伟达团队创建的一个多样化的大语言模型（LLM）安全数据集，旨在解决LLM在商业应用中的内容安全问题。该数据集包含34,248条人类与LLM交互的样本，涵盖了12个核心风险类别和9个细粒度风险类别。数据集的生成过程结合了人工标注和多LLM“陪审团”系统，确保了数据的多样性和质量。AEGIS2.0 的数据来源包括真实世界交互中的有害提示和LLM生成的响应，特别关注对抗性攻击、文化背景和关键风险。数据集的应用领域主要集中在LLM的安全防护，帮助模型更好地识别和处理新兴的安全风险，确保其在商业应用中的安全性和可靠性。

AEGIS2.0 is a diverse large language model (LLM) safety dataset developed by the NVIDIA team, which aims to resolve content security challenges faced by LLMs in commercial deployments. This dataset includes 34,248 human-LLM interaction samples, spanning 12 core risk categories and 9 fine-grained risk categories. The construction of AEGIS2.0 integrates manual annotation and a multi-LLM jury system, guaranteeing the diversity and high quality of the dataset. The data sources of AEGIS2.0 cover harmful prompts extracted from real-world human-LLM interactions and LLM-generated responses, with a special emphasis on adversarial attacks, cultural contexts and critical risks. The main application scope of this dataset is LLM security protection, assisting models in better identifying and addressing emerging security risks, thereby ensuring the safety and reliability of LLMs in commercial applications.

提供机构：

英伟达

创建时间：

2025-01-16

搜集汇总

数据集介绍

构建方式

AEGIS2.0数据集的构建采用了混合数据生成管道，结合了人类注释和多LLM‘陪审团’系统来评估响应的安全性。通过从多个来源（如Anthropic/hh-rlhf、DAN、AART和Do-Not-Answer）收集提示，并使用Mistral-7B-v0.1生成响应，数据集涵盖了广泛的良性及对抗性提示。为了确保数据多样性，数据集还通过Gemma-2-27B生成了拒绝响应的样本，最终形成了34,248个样本，包括16,880个独立提示和17,368个提示-响应对。

特点

AEGIS2.0数据集的特点在于其全面的安全风险分类法，涵盖了12个核心类别和9个细粒度子类别。该分类法不仅具有可扩展性，还允许人类注释者为未分类的风险提供自由文本输入，随后将其标准化为细粒度类别。数据集包含了多样化的提示，涵盖了关键风险、对抗性越狱和文化背景，并通过LLM陪审团系统对响应进行弱监督标注，确保了数据的高质量和多样性。

使用方法

AEGIS2.0数据集的使用方法包括通过参数高效微调（PEFT）技术训练安全防护模型。使用LLAMA3.1-8B-INSTRUCT作为基础模型，数据集被用于预测提示和响应的安全标签。通过结合人类和LLM生成的注释，模型能够准确识别不安全内容并预测其所属的风险类别。此外，数据集还可用于训练结合主题跟随和安全数据的混合模型，以增强模型对新风险类别的适应性。

背景与挑战

背景概述

AEGIS2.0是由NVIDIA的研究团队于2025年发布的一个专注于大语言模型（LLMs）安全性的数据集。随着生成式AI和大语言模型的广泛应用，内容安全问题日益突出。AEGIS2.0旨在填补现有数据集的空白，提供一个高质量、人工标注的数据集，涵盖LLMs相关的广泛安全风险。该数据集包含34,248个人类与LLMs交互的样本，标注基于一个包含12个核心类别和9个细粒度子类别的分类体系。AEGIS2.0的发布为商业应用中的LLMs安全护栏提供了重要资源，推动了LLMs安全系统的研究与发展。

当前挑战

AEGIS2.0面临的挑战主要包括两个方面。首先，在领域问题方面，LLMs的安全性涉及广泛的风险类别，如仇恨言论、暴力、非法活动等，如何准确识别和分类这些风险是一个复杂的任务。其次，在数据集构建过程中，研究人员面临数据多样性和标注一致性的挑战。尽管采用了混合数据生成管道，结合人工标注和多LLM“陪审团”系统来评估响应的安全性，但如何确保标注的准确性和一致性仍然是一个难题。此外，数据集的扩展性和对新风险的适应性也是构建过程中需要克服的挑战。

常用场景

经典使用场景

AEGIS2.0数据集主要用于评估和训练大语言模型（LLMs）的内容安全防护系统。其经典使用场景包括通过多轮对话的标注数据，识别和分类潜在的有害内容，如暴力、仇恨言论、非法活动等。该数据集通过结合人类标注和多LLM陪审团系统的混合数据生成管道，确保了数据的高质量和多样性，适用于商业应用中的内容安全防护。

实际应用

AEGIS2.0在实际应用中具有广泛的潜力，特别是在商业LLM的内容安全防护系统中。它可以用于训练和评估内容审核模型，帮助识别和过滤有害内容，如暴力、仇恨言论、非法活动等。此外，AEGIS2.0的灵活性和可扩展性使其能够适应新兴的安全风险，如自残、非法活动等。通过开源数据集和模型，AEGIS2.0为研究社区提供了宝贵的资源，推动了LLM安全防护系统的进一步发展。

衍生相关工作

AEGIS2.0的发布衍生了一系列相关研究和工作。例如，基于AEGIS2.0训练的LLAMA3.1-AEGISGUARD模型在性能上超越了LLAMAGUARD3-8B和OPENAI MOD API等现有模型，展示了其在内容安全领域的强大潜力。此外，AEGIS2.0的分类法和数据生成方法也被其他研究团队借鉴，用于开发更高效的内容审核系统。未来，AEGIS2.0的扩展版本可能会涵盖更多语言和文化背景，进一步提升其全球适用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集