HoliSafe

Name: HoliSafe
Creator: ETRI, KAIST AI, University of Seoul, DeepAuto.ai
Published: 2025-06-05 15:26:34
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://youngwanlee.github.io/holisafe/

下载链接

链接失效反馈

官方服务：

资源简介：

HoliSafe是一个全面的安全调整数据集和基准，它系统地涵盖了所有五种安全/不安全的图像-文本组合，提供了更坚固的训练和评估基础。数据集包含15,114个精心策划的图像-指令-响应三元组，通过综合覆盖所有可能的安全和不安全图像-文本输入的组合，显著减少了先前工作中的盲点。此外，数据集的一部分被分割成一个新的全面安全基准HoliSafe-Bench，它更具挑战性，为视觉语言模型（VLM）的安全性能提供了更深入的见解。

提供机构：

ETRI, KAIST AI, University of Seoul, DeepAuto.ai

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

HoliSafe数据集的构建采用了系统化的四步流程，首先基于现有安全分类体系定义7大类18小类的安全分类法。随后从VLGuard、SPA-VL等现有数据集中收集4,395张真实图像，并利用生成模型合成2,387张隐私敏感类图像，共计6,782张图像。每张图像经由人工和GPT-4o双重验证安全类别与安全标签。针对安全图像生成三种指令-响应对（SIST→S/SIST→U/SIUT），非安全图像生成两种指令-响应对（UIUT/UIST），最终形成15,114个经过严格筛选的图像-指令-响应三元组。这种全组合覆盖的构建方法有效解决了传统基准在图像-文本交互安全评估中的盲区问题。

特点

作为首个全面覆盖五种图像-文本安全组合的基准，HoliSafe通过UIUT、UIST、SIUT、SIST→U和SIST→S五种组合类型，系统性地评估多模态模型的安全性。数据集包含1,799张测试图像和4,163个问答实例，覆盖非法活动、暴力、仇恨等7大安全类别，其中35.2%为生成的合成图像以保护隐私。特别设计的SIST→U类型（安全图像+安全文本→不安全输出）能有效检测模型对潜在有害情境的识别能力。与现有基准相比，其问题数量增加近一倍，要求模型具备真正的上下文理解能力而非简单启发式规则。

使用方法

HoliSafe数据集支持两种主要使用模式：作为安全调优的训练集时，建议与常规指令跟随数据按1:1比例混合训练以避免过度拒绝。其15,114个三元组涵盖的全面安全场景可显著提升模型的多模态安全鲁棒性。作为评估基准时，需通过Claude-3.5、GPT-4o等多AI评委进行自动化安全评估，计算攻击成功率（ASR）和拒绝率（RR）指标。特别推荐关注UIST（不安全图像+安全文本）场景的评估结果，该场景能有效检验模型对视觉有害内容的本质理解能力。数据集的五维安全分类体系也可用于细粒度分析模型在不同危害类型上的表现差异。

背景与挑战

背景概述

HoliSafe是由Youngwan Lee等研究人员于2025年提出的一个综合性视觉语言模型安全基准数据集，旨在解决现有VLM安全评估中的局限性。该数据集由ETRI、KAIST AI等机构联合开发，涵盖了五种图像-文本安全组合场景，包括安全图像与安全文本组合产生不安全内容(SIST→U)等复杂情况。作为首个全面考虑多模态交互安全风险的数据集，HoliSafe通过15,114个精心标注的图像-指令-响应三元组，为VLM的安全训练和评估提供了更全面的基准。

当前挑战

HoliSafe针对的核心挑战是现有VLM安全评估的两个关键缺陷：一是传统基准仅部分考虑图像-文本交互可能产生的有害内容，难以检测上下文不安全场景；二是现有方法过度依赖数据微调而缺乏架构创新。在构建过程中，研究团队面临多模态安全分类的复杂性挑战，需要建立包含7大类18子类的细粒度安全分类体系，并通过人工与GPT4o交叉验证确保标注质量。此外，合成隐私敏感类别图像时需平衡真实性与伦理风险，生成15,114个指令-响应对时需精确控制五种安全组合的比例与质量。

常用场景

经典使用场景

在视觉语言模型（VLM）安全研究领域，HoliSafe数据集通过系统覆盖图像-文本安全性的五种组合（安全图像+安全文本、安全图像+不安全文本、不安全图像+安全文本、不安全图像+不安全文本、安全图像+安全文本导致不安全输出），为模型安全训练与评估提供了全面基准。其典型应用场景包括构建多模态对抗样本以测试模型对隐蔽有害内容的识别能力，例如评估模型对看似无害但组合后产生风险的图像-文本对的防御性能。

解决学术问题

该数据集解决了现有VLM安全研究中两大核心问题：一是传统基准仅考虑单一模态风险而忽略多模态交互导致的上下文安全隐患，填补了组合式安全威胁评估的空白；二是突破了纯数据驱动安全调优的局限，通过引入可学习的安全元标记（Safety Meta Token）和专用安全头架构，为模型提供了内生的安全特征编码机制。其创新性安全分类体系涵盖7大类18子类危害内容，显著提升了模型对身份数据泄露、药物滥用等复杂风险的检测鲁棒性。

衍生相关工作

基于HoliSafe的架构创新催生了多项重要研究：1）SafeLLaVA首次实现视觉有害特征编码与安全文本生成的端到端联合优化，在VLSBench等基准上将攻击成功率降低至6.9%；2）引发对安全元标记跨层注意力机制的研究，揭示其在早期约束嵌入和晚期安全校验中的双峰作用；3）推动多模态安全评估标准化，其构建的HoliSafe-Bench被后续工作如Shield-Gemma2采纳为核心测试集，并衍生出针对边缘案例的增强基准MM-SafetyBench++。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集