UnsafeConcepts

Name: UnsafeConcepts
Creator: 德国亥姆霍兹信息安全中心CISPA
Published: 2025-07-15 18:04:27
License: 暂无描述

arXiv2025-07-15 更新2025-08-15 收录

下载链接：

https://github.com/TrustAIRLab/SaferVLM

下载链接

链接失效反馈

官方服务：

资源简介：

UnsafeConcepts数据集是首个涵盖75个不同不安全概念及其相应图像的全面数据集，旨在帮助视觉语言模型识别不同模态下（如文本和图像）的不安全概念。数据集内容涵盖仇恨、骚扰、暴力、自残、性、令人震惊、非法活动、欺骗和健康（药物滥用）等9个类别。数据集创建过程中，首先利用UnsafeBench数据集作为起点，然后通过语义相似度检索和专家标注，最终构建了一个包含1500张图像的数据集。该数据集的应用领域在于提升视觉语言模型在识别不安全概念方面的能力，旨在解决视觉语言模型在不同模态下识别不安全概念时存在的模态差距问题。

提供机构：

德国亥姆霍兹信息安全中心CISPA

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

UnsafeConcepts数据集的构建始于对UnsafeBench数据集的扩展与细化，该数据集原本包含11类不安全内容的10K标注图像。研究者首先依据OpenAI内容政策及学术文献中的安全分类标准，筛选出九类最具代表性的不安全类别（如仇恨、骚扰、暴力等）。通过人工解析UnsafeBench的类别定义文本，拆解出75个细粒度不安全概念（如"性骚扰""纳粹标志"），并利用CLIP模型计算文本-图像语义相似度，从UnsafeBench中为每个概念检索前50相关图像。最终由三名专家对3750张候选图像进行三重标注，通过Fleiss'Kappa系数（0.682）验证标注一致性，经多数表决后形成包含1567张图像的最终数据集。

特点

该数据集的核心价值在于其精细的概念划分与多模态标注体系。作为首个针对多模态不安全内容识别的细粒度标注数据集，它涵盖视觉与文本两种模态的关联标注，每张图像均绑定特定不安全概念而非二分类标签。数据集呈现显著的类别不平衡性，如"性相关"类别包含229张图像而"健康危害"仅87张，反映了现实场景中不安全内容的分布差异。特别设计的单选项问题框架（1正例+3干扰项）支持对模型感知能力的量化评估，而五组对齐提示词（如"适合社交媒体展示？"）则构建了多维度安全语境评估体系。

使用方法

使用该数据集需遵循三阶段流程：在感知评估阶段，将单选项问题与对应图像输入视觉语言模型（VLM），通过RoBERTa分类器解析模型输出选项，计算正确识别率（Perception Score）。对齐评估阶段则需分别输入视觉图像和文本描述的不安全概念，采用特定提示模板触发模型的安全判断，统计符合人类伦理标准的响应比例（Alignment Score）。对于模型优化，建议采用论文提出的简化RLHF方法：直接利用预训练响应分类器生成奖励信号，结合PPO算法迭代优化模型参数，该方法在保持通用能力的同时显著缩小了模态差距。需注意数据集仅限研究申请使用，且处理敏感内容时需遵循伦理审查规范。

背景与挑战

背景概述

UnsafeConcepts数据集由CISPA亥姆霍兹信息安全中心的Yiting Qu、Michael Backes和Yang Zhang等研究人员于2025年创建，旨在系统评估视觉语言模型(VLMs)在跨模态识别不安全概念方面的能力。该数据集包含75个不安全概念（如'纳粹标志'、'性骚扰'和'暴力袭击'）及其相关的1.5K图像，覆盖仇恨、骚扰、暴力等9个类别。作为首个细粒度标注的不安全图像数据集，它为研究VLMs的伦理对齐能力提供了重要基准，推动了多模态内容安全领域的发展。

当前挑战

该数据集面临的核心挑战包括：1) 模态差距问题——VLMs对文本描述的不安全概念识别准确率（0.81-0.95）显著高于视觉模态（0.14-0.70）；2) 上下文敏感性——模型在通用安全场景中易忽略视觉概念的危害性（如将63%的工作场所骚扰图像误判为安全）；3) 数据构建挑战——需平衡伦理审查与标注准确性，仅33%候选图像通过专家评审（Fleiss' Kappa=0.682），且需处理CLIP检索图像与真实概念间的语义偏差。

常用场景

经典使用场景

UnsafeConcepts数据集在评估视觉语言模型（VLMs）识别多模态不安全概念的能力方面具有经典应用场景。该数据集包含75个不安全概念及其相关图像，涵盖了仇恨符号、性骚扰、暴力等多个类别。研究者通过设计单选择问题和伦理对齐提示，系统地测试VLMs在感知（概念识别）和对齐（伦理推理）两方面的表现。这一场景为理解VLMs在内容审核中的实际表现提供了重要基准。

衍生相关工作

UnsafeConcepts数据集推动了多项相关研究，包括LLaVAGuard等基于VLM的内容审核工具开发，以及RLAIF等利用AI反馈替代人工标注的强化学习方法。其衍生的对齐技术还被应用于缓解模型幻觉（如LLaVA-RLHF）和防御对抗攻击（如Eyes Closed, Safety On），为多模态安全研究树立了新的基准。

数据集最近研究