MM-Hallu/MVI-Bench

Name: MM-Hallu/MVI-Bench
Creator: MM-Hallu
Published: 2026-04-25 16:44:47
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/MVI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MVI-Bench是一个误导性视觉输入基准测试，包含1,248个专家标注的视觉问答(VQA)实例，涵盖6种视觉错觉类别(相似性、表征性、材质性、镜像性、遮挡性和错觉性)。数据集包含图像、问题、答案、选项、类别、来源和类型等字段，用于评估模型在误导性视觉输入下的表现。

MVI-Bench is a Misleading Visual Input Benchmark with 1,248 expert-annotated VQA instances across 6 visual illusion categories (resemblance, representation, material, mirror, occlusion, illusion). The dataset contains fields such as image, question, answer, choices, category, source, and type, designed to evaluate model performance on misleading visual inputs.

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

MVI-Bench数据集由领域专家精心构建，涵盖了1,248个经过专业标注的视觉问答实例。这些实例来源于六种视觉错觉类别，包括相似性、再现性、材质、镜像、遮挡和视错觉。数据集的图像来源分为编辑图像和合成图像两类，确保了对真实视觉误导场景的全面覆盖。每个样本均包含图像、问题、标准答案、选项列表、类别标签及来源信息，并依据问题类型划分为正常型与对抗型，以评估模型在不同误导性视觉输入下的表现。

特点

MVI-Bench的突出特点在于其专注于视觉错觉与误导性输入，填补了现有视觉问答基准在检测模型幻觉能力方面的空白。数据集通过细致的类别划分，覆盖从常见视觉欺骗到复杂人为操控的多种场景，能够系统性地揭示多模态大模型在处理视觉歧义时的脆弱性。此外，每项实例均经过专家审核，确保了标注的高质量与可靠性，为精准评估模型性能提供了坚实依据。

使用方法

MVI-Bench以标准视觉问答格式提供数据，用户可直接加载Parquet文件，并通过图像、问题及选项字段对多模态大模型进行推理测试。数据集的类别与问题类型标注支持分层评估，便于研究者分析模型在不同视觉错觉和问题难度下的表现差异。该基准特别适合用于检测模型对误导性视觉输入的鲁棒性，以及识别其在具体场景中产生幻觉的倾向，从而指导后续的模型优化与安全部署。

背景与挑战

背景概述

在视觉语言模型（VLM）飞速发展的当下，模型对图像内容的忠实理解能力成为衡量其智能水平的关键。然而，视觉错觉现象的广泛存在使得模型可能被表面信息误导，从而产生与人类感知相悖的输出。MVI-Bench数据集于近期由相关研究机构（如Kittyhy团队）提出，核心聚焦于视觉错觉情境下的VQA（视觉问答）挑战。该数据集包含1,248个由专家精心标注的样本，覆盖相似性、表征、材质、镜像、遮挡及视错觉六大类别，旨在系统评估多模态大模型在面对误导性视觉输入时的鲁棒性。其发布为揭示VLM在复杂视觉推理中的局限性提供了基准，对于推动模型走向更可靠、更符合人类认知的视觉理解具有重要影响力。

当前挑战

MVI-Bench所应对的领域核心挑战在于，现有视觉语言模型极易被视觉错觉信息所欺骗，生成与事实不符的“幻觉”答案，暴露出模型在真实世界复杂场景下的感知脆弱性。具体挑战包括：1）模型需具备超越浅层模式匹配的深度推理能力，以辨别看似自然但实则具有误导性的视觉信号；2）数据集构建过程中，专家需精心设计并筛选涵盖多类型视觉错觉的图像，确保每个样本均能有效触发常见的模型误判；3）在标注阶段，需要平衡答案的确定性与错觉带来的歧义性，这要求高水平的专家判断和严格的校准流程。这些挑战共同构成了评估VLM鲁棒性的核心难点。

常用场景

经典使用场景

MVI-Bench作为一项面向视觉语言模型（VLM）鲁棒性评估的基准数据集，其经典使用场景聚焦于检测模型在面对视觉误导输入时的表现退化程度。该数据集精心编排了1248个专家标注的视觉问答实例，覆盖了六大视觉错觉类别——包括相似性、表征、材质、镜像、遮挡与幻觉，从而系统性地探究视觉语言模型在非理想视觉条件下回答的可靠性。研究者常借助MVI-Bench来量化模型对于图像中误导性线索的敏感度，尤其是在模型产生视觉幻觉或错误推理时的关键瓶颈。这一基准不仅是评估当前模型的试金石，更成为推动视觉语言理解向更高鲁棒性和更少欺骗性错误迈进的重要工具。

衍生相关工作

MVI-Bench的出现催生了系列围绕视觉鲁棒性与误导性输入防御机制的前沿研究工作。研究者基于该基准提出了针对视觉幻觉的检测框架，通过对比模型在正常与对抗性问题上的表现差异来定位其注意力偏差；另一些工作则致力于设计对抗训练策略，借助MVI-Bench中的错觉类别生成更难攻克的训练样本，从而提升视觉语言模型对镜像、遮挡与材质混淆的抗干扰能力。此外，有学者借鉴该数据集的分类体系，扩展出涵盖更多动态环境与多帧序列的鲁棒性基准，推动了视觉语言理解评估从静态图像向动态场景的演进，形成了以MVI-Bench为原点的研究生态。

数据集最近研究