HoliSafe

github2025-06-14 更新2025-06-15 收录

下载链接：

https://github.com/youngwanLEE/holisafe

下载链接

链接失效反馈

官方服务：

资源简介：

HoliSafe是一个全面的安全调整数据集和基准，用于视觉语言模型（VLMs），涵盖了所有五种安全/不安全的图像-文本组合，为训练和评估提供了更坚实的基础。

HoliSafe is a comprehensive safety adjustment dataset and benchmark designed for Visual Language Models (VLMs), encompassing all five combinations of safe/unsafe image-text pairs, providing a more solid foundation for training and evaluation.

创建时间：

2025-06-12

原始信息汇总

HoliSafe数据集概述

基本信息

数据集名称: HoliSafe
论文标题: HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model
论文链接: https://www.arxiv.org/pdf/2506.04704
作者: Youngwan Lee, Kangsan Kim, Kwanyong Park, Ilchae Jung, Sujin Jang, Seanie Lee, Young-Ju Lee, Sung Ju Hwang
机构: ETRI, KAIST, UOS, DeepAuto.ai
主页: https://youngwanlee.github.io/holisafe
数据集链接: https://huggingface.co/datasets/etri-vilab/holisafe (即将发布)

数据集简介

目的: 为视觉语言模型(VLMs)提供全面的安全调优数据集和基准测试。
特点:
- 涵盖所有五种安全/不安全的图像-文本组合。
- 提供更稳健的训练和评估基础。
相关模型: SafeLLaVA，一种配备安全元标记和安全头的新型VLM。

数据集统计

数据集	图像数量	问答数量	U<sub>I</sub>U<sub>T</sub>	U<sub>I</sub>S<sub>T</sub>	S<sub>I</sub>U<sub>T</sub>	S<sub>I</sub>S<sub>T</sub>→U	S<sub>I</sub>S<sub>T</sub>→S
HoliSafe-Bench	1,779	4,163	✅	✅	✅	✅	✅

待办事项

[ ] 发布HoliSafe数据集
[ ] HoliSafe-Bench评估代码
[ ] 训练SafeLLaVA代码

引用

bibtex @article{lee2025holisafe, title={HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model}, author={Lee, Youngwan and Kim, Kangsan and Park, Kwanyong and Jung, Ilcahe and Jang, Soojin and Lee, Seanie and Lee, Yong-Ju and Hwang, Sung Ju}, journal={arXiv preprint arXiv:2506.04704}, year={2025}, url={https://arxiv.org/abs/2506.04704}, archivePrefix={arXiv}, eprint={2506.04704}, primaryClass={cs.AI}, }

搜集汇总

数据集介绍

构建方式

在视觉语言模型安全研究领域，HoliSafe数据集的构建采用了全维度覆盖策略，系统性地整合了五种安全/非安全图文组合场景。研究团队通过精心设计的标注框架，收集了1,779张图像并生成4,163组问答对，确保每个组合类型（UIUT、UIST、SIUT、SIST→U、SIST→S）都得到充分体现。数据集构建过程特别注重上下文敏感性，能够捕捉看似良性的图文组合可能产生的潜在危害，这种多模态交互的深度标注为模型安全评估提供了更全面的基准。

使用方法

该数据集主要服务于视觉语言模型的安全调优与评估两大场景。研究人员可通过HoliSafe-Bench对模型进行系统性安全测试，覆盖各类潜在风险场景。在模型训练方面，数据集支持端到端的安全调优，特别是与论文提出的SafeLLaVA架构配合使用时，其安全元标记机制能有效利用数据集的丰富标注信息。使用流程包括数据加载、安全头训练、元标记嵌入等步骤，具体实现可参考即将发布的训练代码和HuggingFace数据集页面。

背景与挑战

背景概述

HoliSafe是由韩国电子通信研究院（ETRI）、韩国科学技术院（KAIST）等机构的研究团队于2025年推出的综合性视觉语言模型安全基准数据集。该数据集针对当前视觉语言模型（VLMs）安全调优领域存在的关键问题，首次全面覆盖了五种安全/非安全图文组合场景，突破了传统基准仅关注部分交互模式的局限性。研究团队通过引入安全元标记（safety meta token）和专用安全头（safety head）的创新架构，推动VLMs在对抗越狱攻击和上下文安全隐患方面取得显著进展，为多模态对齐领域提供了新的研究范式。

当前挑战

在解决领域问题方面，HoliSafe面临视觉语言模型安全评估体系碎片化的挑战，现有基准如FigStep、MM-Safety等仅能检测特定类型的图文有害组合，导致模型存在防御盲区。数据集构建过程中，研究团队需攻克多模态有害内容标注的复杂性难题，包括如何准确定义看似良性组合产生的语境化危害，以及建立覆盖UIUT（不安全图像+不安全文本）等五种交互场景的标准化评估框架。此外，确保安全元标记在跨模态表征学习中的有效性，也是模型架构设计面临的重要技术挑战。

常用场景

经典使用场景

在视觉语言模型（VLMs）的安全评估领域，HoliSafe数据集被广泛应用于全面测试模型在各种图像-文本组合下的安全性能。其独特之处在于覆盖了所有五种安全/不安全组合，包括看似无害但实际危险的上下文场景，为研究者提供了一个多维度的评估框架。通过模拟真实世界中复杂的多模态交互，该数据集能够有效检验模型对潜在有害内容的识别和过滤能力。

解决学术问题

HoliSafe解决了当前视觉语言模型安全研究中两个关键问题：现有基准覆盖不全导致的评估盲区，以及过度依赖数据调优而缺乏架构创新的局限。通过构建包含完整交互场景的数据集，并引入安全元标记和安全头模块，该工作为多模态对齐提供了新的技术路径。其提出的SafeLLaVA模型在多个基准测试中展现出卓越的安全性能，显著提升了模型对隐蔽有害内容的防御能力。

实际应用

该数据集的实际价值体现在智能内容审核系统的开发中，特别是在社交媒体平台和搜索引擎等需要实时过滤多模态有害内容的场景。基于HoliSafe训练的模型能够更准确地识别具有潜在风险的图文组合，例如看似普通的图片配以诱导性文字的情况。这种能力对于防止AI系统被恶意利用具有重要现实意义，为构建可信赖的多模态AI系统奠定了基础。

数据集最近研究