Uni-SafeBench

github2026-04-12 更新2026-04-14 收录

下载链接：

https://github.com/pengzixiang2002/Uni_SafeBench

下载链接

链接失效反馈

官方服务：

资源简介：

Uni-SafeBench解决了统一多模态大型语言模型（U-MLLMs）时代安全评估的关键需求。与之前专注于单一模态的基准不同，Uni-SafeBench提供了多任务评估、自动化判断工具链和丰富场景的复合不安全案例。

Uni-SafeBench addresses the critical need for safety evaluation in the era of Unified Multimodal Large Language Models (U-MLLMs). Unlike prior single-modality-focused benchmarks, Uni-SafeBench provides multi-task evaluation frameworks, automated judgment toolchains, and composite unsafe cases covering a diverse range of scenarios.

创建时间：

2026-04-01

原始信息汇总

Uni-SafeBench 数据集概述

数据集基本信息

数据集名称：Uni-SafeBench
核心目标：为统一多模态大语言模型（U-MLLMs）提供安全评估基准。
主要特点：专注于多模态场景下的安全评估，区别于以往专注于单一模态的基准。

数据集内容与结构

评估任务：涵盖理解（视觉问答，VQA）与生成（文本到图像生成、文本引导图像编辑、文本生成）任务。
数据场景：包含复杂的“复合不安全”案例，即安全的输入组合后可能产生不安全的意图。
项目结构：
- Uni-Judger/：核心评估工具链，包含安全评估、意图提取、分类统计、跨模型统计汇总和结果聚合等脚本。
- data/：基准数据集，按任务（VQA、T2I、文本引导图像编辑、文本生成）和安全性组合（安全/不安全的图像与文本）组织。

评估方法

自动化评判：提供由GPT-4o/Qwen-VL驱动的Uni-Judger工具链，用于一致的安全评分。
评估流程：支持安全评估、意图提取和统计分析。

使用与获取

许可证：仅用于学术研究。禁止任何形式的商业使用。未经事先批准，不得分发、发布、复制、传播或修改数据集的全部或部分内容。
引用信息：
- 论文标题：Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models
- 作者：Peng, Zixiang; Xu, Yongxiu; Zhang, Qinyi; Shen, Jiexun; Zhang, Yifan; Xu, Hongbo; Wang, Yubin; Gou, Gaopeng
- 预印本：arXiv preprint arXiv:2604.00547
- 年份：2026
联系方式：pengzixiang@iie.ac.cn

搜集汇总

数据集介绍

构建方式

在统一多模态大模型迅速发展的背景下，Uni-SafeBench的构建旨在填补现有安全评估基准的空白。该数据集通过精心设计的多任务框架，整合了视觉问答、文本到图像生成、文本引导图像编辑及文本生成等多种模态任务。构建过程中，研究人员系统性地收集并标注了涵盖安全与不安全意图的多样化样本，特别引入了“复合不安全”场景，即安全输入组合可能引发不安全意图的复杂案例，以模拟现实世界中的边缘情况。数据集的构建严格遵循学术规范，确保了样本的多样性和评估的全面性。

特点

Uni-SafeBench的显著特点在于其统一的多模态安全评估能力。它不仅覆盖了理解与生成任务，还配备了自动化的Uni-Judger评判工具链，该工具链基于GPT-4o或Qwen-VL等先进模型，能够提供一致且可靠的安全评分。数据集包含了丰富的安全类别，如暴力、偏见等，并特别设计了复合不安全案例，以挑战模型在复杂情境下的安全边界。这种设计使得评估结果更具深度和实用性，能够全面反映模型在实际应用中的安全表现。

使用方法

使用Uni-SafeBench进行安全评估时，研究人员需首先克隆代码库并安装依赖环境。通过配置API密钥，可调用Uni-Judger工具链执行自动化安全检查，该工具链支持从意图提取到结果统计的全流程分析。用户需准备符合特定JSONL格式的输入文件，包含提示、模型输出图像或文本等信息，随后运行安全检查脚本以生成评分报告。此外，数据集还提供了类别统计和跨模型比较功能，便于深入分析模型在不同安全维度上的表现，从而为模型优化提供数据支持。

背景与挑战

背景概述

随着统一多模态大语言模型（U-MLLMs）的快速发展，其在理解与生成任务上的能力日益增强，但模型的安全性问题亦随之凸显。Uni-SafeBench数据集于2026年由Peng Zixiang等人提出，旨在填补多模态大模型安全评估领域的空白。该数据集由中国科学院信息工程研究所等机构的研究团队构建，核心研究问题聚焦于评估U-MLLMs在视觉问答、文本到图像生成及图像编辑等多任务场景下的安全性能。通过引入复合不安全案例与自动化评判工具链，Uni-SafeBench为多模态模型的安全研究提供了标准化基准，对推动人工智能安全治理具有重要影响力。

当前挑战

Uni-SafeBench所解决的领域挑战在于多模态大模型安全评估的复杂性与动态性。传统单模态基准难以捕捉跨模态交互中涌现的安全风险，例如文本与图像结合可能隐含的复合有害意图。构建过程中的挑战包括多任务数据集的协调设计，需平衡视觉与文本模态的语义一致性；自动化评判系统的开发依赖于大型语言模型如GPT-4o，其评判标准的主观性与可扩展性仍需优化；此外，数据集中复合不安全案例的构建需精确界定安全边界，避免评估偏差，这对标注质量与伦理审查提出了较高要求。

常用场景

经典使用场景

在统一多模态大模型（U-MLLMs）快速发展的背景下，Uni-SafeBench为评估模型在复杂多模态任务中的安全性提供了标准化测试框架。该数据集通过视觉问答、文本到图像生成以及文本引导图像编辑等多种任务，系统性地检验模型在理解与生成过程中对有害内容的识别与规避能力。其独特之处在于引入了“复合不安全”场景，即安全输入组合可能引发不安全意图，从而模拟现实世界中更为隐蔽的风险情境，为模型安全性的深度评估奠定了坚实基础。

实际应用

在实际部署中，Uni-SafeBench可作为多模态AI系统安全审计的核心工具，帮助开发者在模型发布前识别潜在风险。例如，在内容生成平台中，利用该基准测试图像生成模型对敏感提示的响应，可预防有害视觉内容的传播；在智能助手场景下，评估其跨模态对话中的安全边界，能提升交互可靠性。此外，自动化评判机制降低了人工审核成本，为企业合规性检查与政府监管提供了可扩展的技术支持，助力构建更安全的数字生态。

衍生相关工作

围绕Uni-SafeBench，学术界已衍生出多项聚焦多模态安全的前沿研究。部分工作基于其“复合不安全”范式，开发了更细粒度的对抗性测试方法，以揭示模型在隐含恶意组合指令中的脆弱性。另有研究借鉴其自动化评判框架，构建了轻量级安全评估工具，适配资源受限场景。这些衍生工作不仅扩展了多模态安全评估的维度，也促进了安全强化学习、对抗性鲁棒性等方向的交叉创新，持续推动该领域向系统化、实用化演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集