MMSafeAware

Name: MMSafeAware
Creator: 香港科技大学, 腾讯AI实验室, 香港中文大学（深圳）, 香港中文大学
Published: 2025-02-17 00:12:40
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11184v1

下载链接

链接失效反馈

官方服务：

资源简介：

MMSafeAware是一个全面的多模态安全意识基准，由腾讯AI实验室推出，包含29个安全场景下的1500个经过精心策划的图像-提示对。该数据集旨在评估多模态大型语言模型在识别多模态内容安全性方面的能力，分为不安全子集和过安全子集，以评估模型正确识别不安全内容和避免过度敏感的能力。数据集经过人工标注确保质量，是目前为止最全面的多模态安全基准。

提供机构：

香港科技大学, 腾讯AI实验室, 香港中文大学（深圳）, 香港中文大学

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

MMSafeAware数据集的构建旨在评估多模态大型语言模型（MLLMs）在安全性方面的表现。该数据集包括两个子集：不安全子集和过度安全子集。不安全子集包含1000个图像-提示对，这些图像和提示单独看都是良性的，但结合在一起表达不安全的信息。过度安全子集包含500个图像-提示对，这些图像或提示单独看可能是不安全的，但结合在一起是安全的。所有数据都经过人工检查，以确保质量。

特点

MMSafeAware数据集的特点在于其全面性和多样性。它涵盖了29种安全场景，包括但不限于身体伤害、心理健康、财产、社会安全等方面。此外，该数据集还考虑了指令攻击场景，如角色扮演、具有不安全观点的查询和目标劫持。这些特性使得MMSafeAware成为评估MLLMs安全意识的一个强有力的工具。

使用方法

MMSafeAware数据集的使用方法是将图像-提示对输入MLLMs，并要求模型判断内容是否安全。对于不安全子集，期望的答案是“否”，而对于过度安全子集，期望的答案是“是”。通过这种方式，可以评估模型在识别不安全内容和避免过度敏感方面的能力。此外，研究人员还可以使用数据集中的不同场景来测试模型在不同安全领域的能力。

背景与挑战

背景概述

随着多模态大型语言模型（MLLMs）如GPT-4V和Bard的发布和应用，它们通过文本和图像的交互扩展了传统语言模型的功能。然而，确保这些模型的安全性仍然是一个重大挑战，特别是在准确识别多模态内容是否安全或危险的能力上，我们称之为安全意识。本文介绍了MMSafeAware，这是第一个全面的多模态安全意识基准，旨在评估MLLMs在29个安全场景中的表现，其中包括1,500个精心策划的图像-提示对。MMSafeAware包括不安全和过度安全子集，以评估模型正确识别不安全内容和避免过度敏感的能力。使用MMSafeAware评估九个广泛使用的MLLMs表明，当前模型的安全性不足，并且往往过于敏感；例如，GPT-4V将36.1%的不安全输入错误地分类为安全，并将59.9%的良性输入错误地分类为不安全。我们进一步探索了三种提高安全意识的方法——基于提示的方法、视觉对比解码和以视觉为中心的推理微调——但发现这些方法都没有达到令人满意的效果。我们的发现突出了开发具有强大安全意识的MLLMs所面临的深刻挑战，强调了在该领域进行更多研究的必要性。所有代码和数据都将公开提供，以促进未来的研究。

当前挑战

MMSafeAware数据集面临的主要挑战包括：1) 准确识别多模态内容的安全性，这对于MLLMs来说是一个非平凡的任务，因为多模态输入通常使用不同的模态来传达信息，MLLMs需要处理每个模态中的信息并有效地融合来自不同模态的信息；2) 避免过度敏感，MLLMs往往对输入内容过于敏感，这可能会影响它们的有用性；3) 构建过程中遇到的挑战，如确保数据集的质量和准确性，以及如何有效地评估和改进MLLMs的安全意识。

常用场景

经典使用场景

MMSafeAware 数据集被设计为评估多模态大型语言模型（MLLMs）在 29 个安全场景中的安全意识。它包含 1,500 个精心策划的图像-提示对，旨在帮助研究者理解 MLLMs 在识别多模态内容安全与否方面的能力。该数据集包括不安全和过度安全两个子集，用于评估模型识别不安全内容的能力以及避免过度敏感的能力。通过使用 MMSafeAware 对九种广泛使用的 MLLMs 进行评估，研究者可以识别当前模型在安全方面的不足，并为未来的研究提供方向。

衍生相关工作

MMSafeAware 数据集的发布推动了相关研究的发展。它为 MLLMs 的安全意识评估提供了一个标准，激发了研究者探索新的评估方法和改进策略。此外，MMSafeAware 还促进了多模态内容安全评估领域的交流与合作，为未来的研究提供了重要的参考和资源。

数据集最近研究