MMSafe-PO

Name: MMSafe-PO
Creator: 香港理工大学, 武汉大学, 哈尔滨工业大学（深圳）
Published: 2025-03-18 20:02:38
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://lu-yang666.github.io/MMsafe-PO-Web/

下载链接

链接失效反馈

官方服务：

资源简介：

MMSafe-PO数据集是由香港理工大学等机构的研究人员构建的，包含多模态指令、对话格式和人类反馈的配对响应。该数据集通过模态解释方案将文本指令转换为多模态指令，旨在服务于无害多模态助手的偏好优化。数据集包含5667个多模态指令，每个指令都有选定的响应和拒绝的响应，适用于训练和评估多模态大型语言模型的安全性。

The MMSafe-PO dataset is constructed by researchers from institutions including The Hong Kong Polytechnic University. It contains paired responses associated with multimodal instructions, formatted in dialogue structures and paired with human feedback. This dataset converts text instructions into multimodal instructions via a modality interpretation scheme, aiming to support preference optimization for harmless multimodal assistants. The dataset comprises 5667 multimodal instructions, each with both a selected response and a rejected response, and is applicable for training and evaluating the safety of multimodal large language models.

提供机构：

香港理工大学, 武汉大学, 哈尔滨工业大学（深圳）

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

MMSafe-PO数据集的构建采用了模态解释的方法，通过将高质量的文本偏好数据集转化为适合多模态大语言模型（MLLMs）的偏好数据集。具体步骤包括实体识别、图像匹配、指令重述和质量过滤。首先，从Anthropic-HH数据集中提取文本指令，并通过实体识别和图像匹配技术将其转化为包含文本和图像的多模态指令。随后，利用大型语言模型（如Qwen-VL-Chat）对指令进行重述，确保其符合多模态格式。最后，通过人工和模型的双重评估，确保数据的高质量。

特点

MMSafe-PO数据集的特点在于其多模态指令、对话格式以及由人类反馈排序的成对响应。数据集涵盖了广泛的安全相关指令，包括文本和图像的结合，能够有效评估和训练多模态大语言模型的安全能力。此外，数据集还揭示了多模态模型的两个重要现象：模态共防御和模态欺骗。模态共防御表明MLLMs在未经过专门安全训练的情况下仍具备一定的防御能力，而模态欺骗则揭示了模型在某些情况下会忽略视觉信息，仅依赖文本模式进行响应。

使用方法

MMSafe-PO数据集的使用方法主要包括训练和评估多模态大语言模型的安全能力。通过直接偏好优化（DPO）和盲偏好优化（BPO）方法，模型可以在该数据集上进行训练，以提升其安全响应能力。BPO方法通过移除图像信息，生成额外的“拒绝响应”，从而鼓励模型更加关注视觉输入，增强视觉与语言的对齐。实验表明，使用MMSafe-PO数据集进行训练的模型在多个安全基准测试中表现出显著的安全性能提升，尤其是在减少不安全响应率方面。

背景与挑战

背景概述

MMSafe-PO数据集由香港理工大学、武汉大学和哈尔滨工业大学（深圳）的研究团队于2025年提出，旨在解决多模态大语言模型（MLLMs）在安全对齐方面的挑战。随着MLLMs在多模态理解、推理和交互中的广泛应用，其安全问题日益凸显。MMSafe-PO通过构建包含多模态指令、对话格式和人类反馈排序的配对响应数据集，推动了MLLMs在安全对齐方面的研究。该数据集的提出不仅填补了多模态安全偏好数据的空白，还为MLLMs的安全优化提供了重要支持。通过引入盲偏好优化（BPO）方法，MMSafe-PO显著提升了MLLMs的安全性能，验证了其在多模态安全领域的有效性。

当前挑战

MMSafe-PO数据集在构建和应用过程中面临多重挑战。首先，多模态指令的复杂性要求数据集必须同时涵盖文本和图像信息，这对数据的收集和标注提出了更高的要求。其次，对话格式的引入使得数据集的构建需要模拟真实用户与助手的交互场景，这对数据的多样性和真实性提出了挑战。此外，配对响应的排序依赖于人类反馈，而大规模高质量的人类反馈数据收集成本高昂且耗时。在应用层面，尽管MLLMs具备一定的内在防御能力，但仍存在模态欺骗问题，即模型可能过度依赖文本信息而忽略视觉信息，导致安全响应失效。这些挑战凸显了多模态安全对齐的复杂性和必要性。

常用场景

经典使用场景

MMSafe-PO数据集主要用于多模态大语言模型（MLLMs）的安全对齐研究。通过提供多模态指令、对话格式以及由人类反馈排序的成对响应，该数据集为研究人员提供了一个基准，用于评估和优化MLLMs在生成安全响应方面的能力。经典使用场景包括模型训练、安全性能评估以及多模态指令的理解与生成。

解决学术问题

MMSafe-PO数据集解决了多模态大语言模型在安全对齐方面的关键问题。通过提供高质量的多模态偏好数据，该数据集帮助研究人员识别和缓解MLLMs在生成响应时可能出现的潜在安全问题，如误导性信息、非法建议等。此外，该数据集还揭示了MLLMs在多模态防御和模态欺骗方面的独特现象，为模型的安全优化提供了新的视角和方法。

衍生相关工作

MMSafe-PO数据集的发布推动了多模态大语言模型安全对齐领域的研究进展。基于该数据集，研究人员提出了盲偏好优化（BPO）方法，显著提升了MLLMs的安全性能。此外，该数据集还激发了其他相关工作的开展，如多模态安全基准测试（MM-SafetyBench）和视觉语言模型的安全偏好对齐（SPA-VL），进一步丰富了该领域的研究工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集