MMSafeAware
收藏arXiv2025-02-17 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.11184v1
下载链接
链接失效反馈官方服务:
资源简介:
MMSafeAware是一个全面的多模态安全意识基准,由腾讯AI实验室推出,包含29个安全场景下的1500个经过精心策划的图像-提示对。该数据集旨在评估多模态大型语言模型在识别多模态内容安全性方面的能力,分为不安全子集和过安全子集,以评估模型正确识别不安全内容和避免过度敏感的能力。数据集经过人工标注确保质量,是目前为止最全面的多模态安全基准。
提供机构:
香港科技大学, 腾讯AI实验室, 香港中文大学(深圳), 香港中文大学
创建时间:
2025-02-17
搜集汇总
数据集介绍

构建方式
MMSafeAware数据集的构建旨在评估多模态大型语言模型(MLLMs)在安全性方面的表现。该数据集包括两个子集:不安全子集和过度安全子集。不安全子集包含1000个图像-提示对,这些图像和提示单独看都是良性的,但结合在一起表达不安全的信息。过度安全子集包含500个图像-提示对,这些图像或提示单独看可能是不安全的,但结合在一起是安全的。所有数据都经过人工检查,以确保质量。
特点
MMSafeAware数据集的特点在于其全面性和多样性。它涵盖了29种安全场景,包括但不限于身体伤害、心理健康、财产、社会安全等方面。此外,该数据集还考虑了指令攻击场景,如角色扮演、具有不安全观点的查询和目标劫持。这些特性使得MMSafeAware成为评估MLLMs安全意识的一个强有力的工具。
使用方法
MMSafeAware数据集的使用方法是将图像-提示对输入MLLMs,并要求模型判断内容是否安全。对于不安全子集,期望的答案是“否”,而对于过度安全子集,期望的答案是“是”。通过这种方式,可以评估模型在识别不安全内容和避免过度敏感方面的能力。此外,研究人员还可以使用数据集中的不同场景来测试模型在不同安全领域的能力。
背景与挑战
背景概述
随着多模态大型语言模型(MLLMs)如GPT-4V和Bard的发布和应用,它们通过文本和图像的交互扩展了传统语言模型的功能。然而,确保这些模型的安全性仍然是一个重大挑战,特别是在准确识别多模态内容是否安全或危险的能力上,我们称之为安全意识。本文介绍了MMSafeAware,这是第一个全面的多模态安全意识基准,旨在评估MLLMs在29个安全场景中的表现,其中包括1,500个精心策划的图像-提示对。MMSafeAware包括不安全和过度安全子集,以评估模型正确识别不安全内容和避免过度敏感的能力。使用MMSafeAware评估九个广泛使用的MLLMs表明,当前模型的安全性不足,并且往往过于敏感;例如,GPT-4V将36.1%的不安全输入错误地分类为安全,并将59.9%的良性输入错误地分类为不安全。我们进一步探索了三种提高安全意识的方法——基于提示的方法、视觉对比解码和以视觉为中心的推理微调——但发现这些方法都没有达到令人满意的效果。我们的发现突出了开发具有强大安全意识的MLLMs所面临的深刻挑战,强调了在该领域进行更多研究的必要性。所有代码和数据都将公开提供,以促进未来的研究。
当前挑战
MMSafeAware数据集面临的主要挑战包括:1) 准确识别多模态内容的安全性,这对于MLLMs来说是一个非平凡的任务,因为多模态输入通常使用不同的模态来传达信息,MLLMs需要处理每个模态中的信息并有效地融合来自不同模态的信息;2) 避免过度敏感,MLLMs往往对输入内容过于敏感,这可能会影响它们的有用性;3) 构建过程中遇到的挑战,如确保数据集的质量和准确性,以及如何有效地评估和改进MLLMs的安全意识。
常用场景
经典使用场景
MMSafeAware 数据集被设计为评估多模态大型语言模型(MLLMs)在 29 个安全场景中的安全意识。它包含 1,500 个精心策划的图像-提示对,旨在帮助研究者理解 MLLMs 在识别多模态内容安全与否方面的能力。该数据集包括不安全和过度安全两个子集,用于评估模型识别不安全内容的能力以及避免过度敏感的能力。通过使用 MMSafeAware 对九种广泛使用的 MLLMs 进行评估,研究者可以识别当前模型在安全方面的不足,并为未来的研究提供方向。
衍生相关工作
MMSafeAware 数据集的发布推动了相关研究的发展。它为 MLLMs 的安全意识评估提供了一个标准,激发了研究者探索新的评估方法和改进策略。此外,MMSafeAware 还促进了多模态内容安全评估领域的交流与合作,为未来的研究提供了重要的参考和资源。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)的领域,MMSafeAware数据集的引入标志着对模型安全意识评估的深入探索。该数据集涵盖了29个安全场景,包含了1,500个精心挑选的图像-提示对,旨在评估MLLMs在判断多模态内容安全性方面的能力。MMSafeAware的独特之处在于,它不仅包含了不安全的内容子集,用于评估模型识别不安全内容的能力,还包括了过度安全子集,用于评估模型是否过于敏感。研究发现,目前广泛使用的MLLMs在安全性方面存在显著不足,例如GPT-4V将36.1%的不安全输入错误地分类为安全,同时将59.9%的良性输入错误地分类为不安全。为了提高安全意识,研究人员探索了三种方法:基于提示的方法、视觉对比解码和以视觉为中心的推理微调,但这些方法均未达到令人满意的效果。这一发现强调了开发具有稳健安全意识的MLLMs所面临的挑战,并突出了在这一领域进行进一步研究的必要性。
相关研究论文
- 1Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs香港科技大学, 腾讯AI实验室, 香港中文大学(深圳), 香港中文大学 · 2025年
以上内容由遇见数据集搜集并总结生成



