MIR-SafetyBench

github2026-01-22 更新2026-02-03 收录

下载链接：

https://github.com/thu-coai/MIR-SafetyBench

下载链接

链接失效反馈

官方服务：

资源简介：

MIR-SafetyBench通过多图像关系攻击评估多模态大型语言模型（MLLM）的安全性，涵盖6个安全类别和9种关系类型。安全类别包括仇恨言论、暴力、自残、非法活动、骚扰和隐私。关系类型包括类比、因果关系、互补性、分解、相关性、空间嵌入、空间并列、时间连续性和时间跳跃。每个样本包含唯一标识符、原始不安全问题、多图像关系类型、利用多图像关系的攻击提示、图像的文字描述、每个图像的关键词、图像文件路径列表和生成迭代次数。

MIR-SafetyBench evaluates the safety of Multimodal Large Language Models (MLLMs) via multi-image relational attacks, covering 6 safety categories and 9 relational types. The safety categories include hate speech, violence, self-harm, illegal activities, harassment, and privacy. The relational types include analogy, causal relationship, complementarity, decomposition, relevance, spatial embedding, spatial juxtaposition, temporal continuity, and temporal jump. Each sample contains a unique identifier, the original unsafe question, the multi-image relational type, the attack prompt leveraging multi-image relations, the textual description of each image, keywords for each image, a list of image file paths, and the number of generation iterations.

创建时间：

2026-01-19

原始信息汇总

MIR-SafetyBench 数据集概述

数据集基本信息

数据集名称：MIR-SafetyBench
发布机构：thu-coai
获取地址：https://huggingface.co/datasets/thu-coai/MIR-SafetyBench
论文地址：https://arxiv.org/pdf/2601.14127

数据集目的与范围

该数据集是一个用于评估多模态大语言模型（MLLMs）在多图像关系（MIR）安全攻击下安全性的综合评估框架。

数据集结构

安全类别

数据集涵盖6个安全类别：

Hate Speech
Violence
Self-Harm
Illegal Activities
Harassment
Privacy

关系类型

数据集包含9种多图像关系类型：

Analogy
Causality
Complementarity
Decomposition
Relevance
Spatial Embedding
Spatial Juxtaposition
Temporal Continuity
Temporal Jump

数据字段

每个样本包含以下字段：

id：唯一标识符
original_question：原始不安全问题
relationship_type：多图像关系类型
revised_prompt：利用多图像关系的攻击提示
image_descriptions：图像的文本描述
image_keywords：每个图像的关键词
images：图像文件路径列表
iteration：生成迭代编号

评估框架

评估指标

HarmBench：使用 HarmBench-Llama-2-13b-cls 进行二元安全分类。

输出结构

评估结果按阶段组织，包含以下目录结构：

results/ ├── infer/ │ └── {model_name}/ │ └── {category}/ │ └── {relationship_type}.json └── harmbench/ └── {model_name}/ └── {category}/ └── {relationship_type}.json

每个推理结果包含：

original_question：原始不安全问题
revised_prompt：包含图像的攻击提示
answer：模型的响应
item_index：样本索引
inference_status：success、failed 或 crashed

结果分析

使用 statics.py 分析结果并计算攻击成功率（ASR）。输出包括：

每种关系类型的不安全计数
每种关系类型的总样本数
每种关系类型的 ASR（%）
所有类别的总体 ASR

使用方式

模型适配

可通过在 models/ 目录下创建新的模型适配器来添加自定义模型。适配器必须实现三个函数：

load_model(model_path, num_gpus=1)
infer(pipe, prompts: List[str], image_path_sets: List[List[str]])
unload_model(pipe)

支持模型类型

标准视觉语言对话模型：使用 vLLM 进行高效推理。
具有思维链推理的模型：从推理轨迹中提取答案。
闭源模型：支持基于 API 的模型（如 OpenAI、Claude 等），处理速率限制和重试。

引用

如需使用此基准测试，请引用： bibtex @misc{chen2026effectssmartsafetyrisks, title={The Side Effects of Being Smart: Safety Risks in MLLMs Multi-Image Reasoning}, author={Renmiao Chen and Yida Lu and Shiyao Cui and Xuan Ouyang and Victor Shea-Jay Huang and Shumin Zhang and Chengwei Pan and Han Qiu and Minlie Huang}, year={2026}, eprint={2601.14127}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.14127}, }

搜集汇总

数据集介绍

构建方式

在评估多模态大语言模型安全性的研究背景下，MIR-SafetyBench数据集的构建采用了系统化的方法。该数据集围绕六个核心安全类别——仇恨言论、暴力、自残、非法活动、骚扰和隐私，以及九种多图像关系类型——类比、因果关系、互补性、分解、相关性、空间嵌入、空间并列、时间连续性和时间跳跃，精心设计了攻击提示。通过将原始不安全问题与多图像关系相结合，生成修订后的攻击提示，并辅以图像描述、关键词和实际图像文件，构建了一个结构化的评估样本集合。数据生成过程涉及多次迭代，以确保攻击场景的多样性和复杂性，从而全面检验模型在多图像推理中的安全漏洞。

特点

MIR-SafetyBench数据集展现出多维度特点，其核心在于通过多图像关系构建安全攻击场景。数据集覆盖广泛的安全类别与关系类型，使得评估能够深入探究模型在不同语义和时空关联下的脆弱性。每个样本均包含原始问题、关系类型、修订提示、图像描述及图像文件，提供了丰富的上下文信息。数据集结构清晰，按安全类别和关系类型分层组织，便于定向分析和比较。此外，数据集支持高效评估流程，包含标准化的推理输出格式和与HarmBench等评估工具的集成，为量化模型的安全性能提供了可靠基础。

使用方法

使用MIR-SafetyBench数据集进行评估时，首先需从HuggingFace平台下载数据集，并通过提取脚本将其转换为本地结构化目录。随后，利用提供的评估脚本，用户可以加载自定义或预定义的多模态大语言模型进行推理测试。评估框架支持多种模型类型，包括基于vLLM的聊天模型、具有思维链推理能力的模型以及通过API访问的闭源模型，用户可通过实现特定适配器来集成新模型。评估过程中，模型会处理包含多图像关系的攻击提示，并生成响应；这些响应可进一步通过HarmBench等分类器进行安全性评分，最终计算攻击成功率以量化模型的安全表现。结果输出按模型、安全类别和关系类型组织，便于后续统计分析。

背景与挑战

背景概述

随着多模态大语言模型在图像理解与推理任务中的广泛应用，其安全性评估成为人工智能领域亟待解决的核心议题。MIR-SafetyBench由清华大学人机交互与认知计算实验室于2026年创建，旨在系统性地评估模型在面对基于多图像关系攻击时的安全鲁棒性。该数据集围绕仇恨言论、暴力内容、自我伤害等六大安全范畴，构建了类比、因果性、时空连续性等九种关系类型的攻击样本，揭示了模型在复杂多图像语境下可能产生的安全漏洞，为多模态安全研究提供了重要的基准测试工具。

当前挑战

MIR-SafetyBench致力于解决多模态大语言模型在理解图像间复杂关系时暴露的安全隐患，其核心挑战在于如何设计能够有效触发模型生成有害内容的多图像攻击策略。在数据集构建过程中，研究人员需要精确界定不同安全类别的边界，并确保九种关系类型的攻击样本既具有语义上的连贯性，又能准确反映现实世界中的安全风险。同时，生成高质量的多图像组合并配以自然语言描述，需克服图像语义对齐、关系逻辑一致性以及攻击有效性验证等多重技术难题。

常用场景

经典使用场景

在人工智能安全研究领域，多模态大语言模型的安全评估日益成为关注焦点。MIR-SafetyBench通过构建多图像关系攻击场景，为研究者提供了一个系统性的评估框架。该数据集的核心应用场景在于测试模型在面对涉及类比、因果、时空连续性等九种复杂关系组合的多图像输入时，能否有效识别并抵御仇恨言论、暴力、自残等六类安全风险。这种评估方式模拟了现实世界中恶意用户可能利用图像间隐含关联发起诱导性攻击的情境，从而深入检验模型的多模态推理鲁棒性。

解决学术问题

该数据集主要致力于解决多模态大语言模型在安全对齐方面的关键学术挑战。传统安全评估往往侧重于单模态或简单多模态输入，难以捕捉模型在复杂跨模态推理中暴露的脆弱性。MIR-SafetyBench通过精心设计的多图像关系攻击，揭示了模型在理解图像间语义关联时可能产生的安全漏洞，为量化模型在复杂上下文中的风险抵御能力提供了标准化度量。这项工作推动了安全评估从表面内容过滤向深层推理机制分析的范式转变，为构建更可靠的多模态安全防护体系奠定了理论基础。

衍生相关工作

该数据集的发布催生了一系列关于多模态安全的前沿研究。基于其构建的评估范式，学术界相继开展了针对特定关系类型的对抗攻击生成研究，如空间并置关系的隐式仇恨表达检测。同时，该工作启发了对多模态链式思维安全性的深入探讨，部分研究团队开始探索在模型推理过程中植入安全约束的新方法。此外，其采用的HarmBench分类器评估框架也被扩展应用于其他多模态安全数据集，形成了跨基准的模型安全性比较研究脉络，持续推动着多模态人工智能安全评估标准的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集