Multi-Image Safety (MIS)

github2025-02-23 更新2025-02-24 收录

下载链接：

https://github.com/DripNowhy/MIS

下载链接

链接失效反馈

官方服务：

资源简介：

一个集成了多图像输入与安全链式思维（Chain-of-Thought, CoT）标签作为细粒度推理逻辑的指令遵循数据集，适用于多图像安全场景。

An instruction-following dataset integrating multi-image inputs and safe Chain-of-Thought (CoT) labels as fine-grained reasoning logic, tailored for multi-image security scenarios.

创建时间：

2025-01-25

原始信息汇总

数据集概述

基本信息

数据集名称: Multi-Image Safety (MIS)
发布日期: 2025-01-30
相关论文: Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models
项目页面: MIS Project Page
数据集下载地址: Huggingface MIS Dataset

数据集描述

目的: 提升视觉语言模型在安全关键场景中的视觉感知和推理能力。
特点:
- 包含多图像输入和安全Chain-of-Thought (CoT)标签。
- 专为多图像安全场景设计的指令跟随数据集。
- 包含训练和测试集。
效果:
- 显著提升模型在安全相关视觉推理任务中的性能。
- 在五个通用基准测试中平均准确率提升0.83%。
- 在多个安全基准测试中大幅降低攻击成功率(ASR)。

模型信息

相关模型:
- InternVL2.5-8B-MIRage
- Qwen2-VL-7B-MIRage
模型特点:
- 基于MIS训练数据进行微调。
- 专注于多图像安全推理。

评估方法

评估工具: GPT-4o作为评估器
评估准备:
- 需要设置OpenAI API密钥。
- 数据组织要求特定目录结构。
评估脚本: scripts/eval_all.sh

引用信息

bibtex @article{ding2025rethinking, title={Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models}, author={Ding, Yi and Li, Lijun and Cao, Bing and Shao, Jing}, journal={arXiv preprint arXiv:2501.18533}, year={2025} }

搜集汇总

数据集介绍

构建方式

在当前大型视觉语言模型（VLMs）在多任务中表现出卓越性能的背景下，为了提升模型在安全关键领域的表现，本研究构建了Multi-Image Safety (MIS)数据集。该数据集通过整合多图像输入与安全链式思维（CoT）标签作为细粒度的推理逻辑，旨在增强模型在安全关键情境下的视觉感知和推理能力。具体而言，MIS数据集是一个面向多图像安全场景的指令遵循数据集，包含训练集和测试集两部分。

使用方法

使用MIS数据集的方法包括从Huggingface平台下载数据集，并根据数据集的结构组织数据。针对不同的视觉语言模型，如Qwen2-VL系列、InternVL2.5系列等，建议使用vLLM等工具进行模型部署。在完成环境配置和模型部署后，可以通过执行相应的脚本进行模型推理和评估。评估过程中，使用GPT-4o作为评估器，并确保在`evaluation/gpt_eval.py`中配置了OpenAI API。

背景与挑战

背景概述

Multi-Image Safety (MIS)数据集是由Yi Ding、Lijun Li、Bing Cao和Jing Shao等研究人员于2025年创建的，旨在推动视觉语言模型在安全关键领域应用的研究。该数据集隶属于上海人工智能实验室和天津大学，其主要解决了视觉语言模型在处理安全相关任务时存在的推理缺陷问题。MIS数据集通过整合多图像输入与安全链式思维（CoT）标签，为模型提供了细粒度的推理逻辑，以提升其性能。研究显示，使用MIS数据集对InternVL2.5-8B模型进行微调后，在具有挑战性的多图像任务中，其性能显著优于其他开源模型和基于API的模型，同时保持了模型在通用任务上的能力。

当前挑战

MIS数据集在构建过程中所面临的挑战主要包括：1) 如何设计有效的安全推理任务，以准确评估模型在安全关键场景下的表现；2) 如何平衡模型在安全性能和通用能力之间的权衡，确保微调后的模型既安全又高效；3) 数据集的多样性和广泛性，确保模型能够适应各种不同的安全场景。此外，MIS数据集的创建也带来了如何量化模型在安全任务上的性能提升和风险评估的新挑战。

常用场景

经典使用场景

在深度学习领域，多模态视觉语言模型的安全性微调面临着重大挑战。Multi-Image Safety (MIS) 数据集应运而生，其经典使用场景在于为视觉语言模型提供了一种新的微调方式，即在多图像输入与安全链式思维（CoT）标签之间建立细粒度的推理逻辑，从而增强模型在安全关键场景下的视觉感知和推理能力。

解决学术问题

MIS 数据集解决了现有安全微调方法在处理具有挑战性的安全推理场景时的不足，如忽视视觉推理能力，导致在帮助性与无害性之间的平衡被破坏。通过使用MIS数据集进行微调，模型在保持通用能力的同时，显著提高了安全性能，并在多个安全基准测试中大幅降低了攻击成功率。

实际应用

实际应用中，MIS 数据集可被用于训练视觉语言模型，使其在安全关键的应用领域，如自动驾驶、医疗诊断和工业自动化中，能够更加准确地进行安全相关的视觉推理，从而减少潜在的风险和错误。

数据集最近研究