ProGuard Dataset

Name: ProGuard Dataset
Creator: 上海人工智能实验室; 南京大学·PRLab; 北京航空航天大学
Published: 2025-12-30 00:13:23
License: 暂无描述

arXiv2025-12-30 更新2025-12-31 收录

下载链接：

https://yushaohan.github.io/ProGuard

下载链接

链接失效反馈

官方服务：

资源简介：

ProGuard数据集是由上海人工智能实验室、南京大学PRLab和北京航空航天大学联合构建的多模态安全标注数据集，包含87,000条经过严格标注的文本、图像及图文混合样本。该数据集采用分层多模态安全分类体系，每条数据均标注有二元安全标签和细粒度风险类别，有效缓解了传统方法中的模态偏差问题。数据来源整合了GuardReasoner、BeaverTails-V等10个权威安全数据集，通过大模型多数投票机制进行标注验证，人类验证准确率超过90%。该数据集专为训练主动式安全防护模型设计，可应用于生成式AI的内容安全过滤、风险分类和未知威胁检测等领域。

The ProGuard Dataset is a multimodal safety annotation dataset jointly constructed by the Shanghai AI Laboratory, Nanjing University PRLab, and Beihang University. It contains 87,000 rigorously annotated text, image, and text-image hybrid samples. Adopting a hierarchical multimodal safety classification framework, each sample in this dataset is annotated with binary safety labels and fine-grained risk categories, effectively mitigating the modal bias problem prevalent in traditional approaches. The dataset compiles 10 authoritative safety datasets including GuardReasoner and BeaverTails-V, with its annotation validation conducted via the majority voting mechanism of large language models (LLMs), achieving a human verification accuracy rate of over 90%. This dataset is specifically designed for training proactive safety defense models, and can be deployed in scenarios such as content safety filtering, risk classification, and unknown threat detection for generative AI.

提供机构：

上海人工智能实验室; 南京大学·PRLab; 北京航空航天大学

创建时间：

2025-12-30

搜集汇总

数据集介绍

构建方式

在构建ProGuard数据集时，研究团队首先整合了来自十个现有安全数据集的文本、图像及图文混合样本，并采用基于相似性的去重策略确保样本独特性。随后，通过一个精心设计的多层次多模态安全分类体系，利用开源大型语言模型和视觉语言模型作为标注工具，对每个样本进行三元组多数投票标注，既分配二元安全标签，也标注细粒度的风险类别。最终，通过模态与安全性的平衡处理，形成了一个包含87,000个样本的数据集，其中文本、图文混合与图像样本的数量分别为29,070、30,000和27,954，有效缓解了传统数据集中常见的模态偏差问题。

特点

ProGuard数据集的核心特征在于其模态平衡性与标注的层次性。该数据集在文本、图像及图文混合三种模态上实现了均衡的样本分布，为训练能够公平处理不同输入类型的护卫模型奠定了基础。其标注体系不仅包含简单的安全/不安全二元判断，更引入了一个包含11个高层类别和28个子类别的多层次安全分类法，使得模型能够进行细粒度的风险内容分类。此外，数据集中所有不安全样本均通过多数投票机制进行类别标注，确保了标签的一致性与可靠性，为人机对齐的主动安全研究提供了高质量基准。

使用方法

ProGuard数据集主要用于训练和评估多模态主动安全护卫模型。研究人员可以基于该数据集，利用纯强化学习范式直接优化视觉语言基础模型，使其掌握二元安全分类、不安全内容分类以及分布外安全类别推理三项核心任务。在训练过程中，可通过结构粒度增强、索引混洗和类别移除等数据增强策略，模拟动态演化的安全场景，提升模型对未知风险的泛化能力。评估时，该数据集可用于全面测试模型在不同模态输入下的分类准确性、对未见风险类别的检测能力以及生成语义连贯风险描述的性能，为推进主动安全防护技术提供关键支持。

背景与挑战

背景概述

随着生成式模型的迅猛发展，多模态安全风险不断涌现，传统防御方法在应对新兴威胁时逐渐显现局限性。为应对这一挑战，上海人工智能实验室、南京大学PRLab及北京航空航天大学的研究团队于2025年提出了ProGuard数据集。该数据集旨在构建一个面向多模态内容的主动安全防护系统，核心研究问题在于如何超越现有反应式防护模型的固定分类体系，实现对分布外安全风险的识别与描述。通过构建包含8.7万个样本的模态平衡数据集，并引入层次化多模态安全分类法进行标注，ProGuard为开发基于强化学习的主动防护模型提供了关键数据基础，对推动生成式模型的安全治理向动态化、前瞻性方向发展具有重要影响力。

当前挑战

ProGuard数据集致力于解决多模态内容安全防护领域的核心挑战，即如何实现对未知或新兴安全风险的主动识别与分类。传统防护模型依赖预定义的安全分类体系，难以应对快速演变的威胁形态，导致在分布外风险检测上存在显著不足。在数据集构建过程中，研究团队面临模态偏差的严峻挑战，现有数据往往在文本与图像风险上分布不均，影响模型在多模态场景下的均衡判断能力。此外，为确保标注的一致性与可靠性，需设计高效的众包标注与多数投票机制，并建立细粒度的层次化分类体系以涵盖多样化的安全风险类别，这些都对数据集的规模、质量与结构提出了更高要求。

常用场景

经典使用场景

在生成式人工智能安全研究领域，ProGuard数据集被广泛用于训练和评估多模态主动防护模型。该数据集构建了一个涵盖文本、图像及图文混合输入的平衡样本集合，并依据层次化安全分类体系进行精细标注，为模型提供了跨模态风险识别的统一基准。研究者通常利用该数据集进行二元安全分类、不安全内容细粒度归类以及分布外风险推断等核心任务的性能验证，其模态均衡特性有效缓解了传统防护模型在处理视觉内容时存在的偏差问题，为多模态安全评估提供了可靠的数据支撑。

衍生相关工作

基于ProGuard数据集所构建的基准与范式，衍生出了一系列聚焦于多模态主动安全的前沿研究。例如，部分工作借鉴其层次化分类思想，构建了针对特定垂直领域（如医疗、金融）的扩展安全分类体系。另有研究沿袭其纯强化学习训练范式，探索了在更大规模视觉语言模型上实现高效安全推理的优化路径。此外，该数据集启发的分布外风险描述任务，也促进了基于语义相似度的奖励机制设计，相关方法被后续研究用于提升模型对未知威胁的概念化与泛化能力，推动了防护模型从静态规则执行向动态风险认知的范式转变。

数据集最近研究