MIHBench
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/MM-Hallu/MIHBench
下载链接
链接失效反馈官方服务:
资源简介:
MIHBench 是一个用于评估多模态大语言模型(MLLMs)中多图像理解能力的基准数据集。该数据集包含 3,200 个样本,分布在 4 个任务中(每个任务 800 个样本),每个样本包含 2-4 张来自 COCO 数据集的图像。数据集的主要字段包括:images(2-4 张图像的列表)、question(关于图像的自然语言问题)、label(真实标签,yes 或 no)、task(任务标识符)、num_images(样本中的图像数量)以及 image_names(源图像文件名)。对于计数任务,还包含额外的字段 injected(布尔值)和 object_counts(JSON 字符串)。数据集支持的任务包括:count(判断两幅图像中目标对象的数量是否相同)、existence_adversarial(判断目标对象是否存在于所有图像中,使用罕见/易混淆对象)、existence_popular(判断目标对象是否存在于所有图像中,使用常见对象)和 existence_random(判断目标对象是否存在于所有图像中,使用随机对象)。评估指标包括准确率、精确率、召回率和 F1 分数。数据集采用 cc-by-4.0 许可,适用于视觉问答任务。
创建时间:
2026-04-27
原始信息汇总
MIHBench 数据集概述
基本信息
- 数据集名称: MIHBench(多图像幻觉基准)
- 许可证: CC-BY-4.0
- 任务类别: 视觉问答(Visual Question Answering)
- 语言: 英语
- 标签: 多图像、幻觉、基准测试、视觉语言模型、多模态
- 数据规模: 1K < n < 10K(共 3,200 个样本)
- 出处: 原始数据来自 MIHBench 论文(ACM Multimedia 2025)
数据集结构与字段
每条样本包含 2-4 张来自 COCO 数据集的图像,字段说明如下:
| 字段 | 类型 | 描述 |
|---|---|---|
| images | 图像序列 | 2-4 张图像 |
| question | 字符串 | 关于图像的自然语言问题 |
| label | 字符串 | 标准答案:"yes" 或 "no" |
| task | 字符串 | 任务标识符 |
| num_images | 整数 | 样本中的图像数量 |
| image_names | 字符串序列 | 源图像文件名 |
count 任务额外包含:
injected(布尔值)object_counts(JSON 字符串)
任务配置
数据集包含 4 个任务子集,每个子集 800 个样本:
| 任务名称 | 图像数量 | 任务描述 |
|---|---|---|
| count | 2 | 两张图像中目标对象数量是否相同? |
| existence_adversarial | 3 | 目标对象是否存在于所有图像中?(罕见/易混淆物体) |
| existence_popular | 3 | 目标对象是否存在于所有图像中?(常见物体) |
| existence_random | 3 | 目标对象是否存在于所有图像中?(随机物体) |
数据文件
数据集分为 4 个配置,均以 Parquet 格式存储:
count:data/count.parquetexistence_adversarial:data/existence_adversarial.parquetexistence_popular:data/existence_popular.parquetexistence_random:data/existence_random.parquet
评估指标
使用二元分类评估方法:
- 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 分数
- 答案解析器:yes/no 二值判断
搜集汇总
数据集介绍

构建方式
MIHBench数据集旨在评估多模态大语言模型在多图像理解任务中的幻觉问题。该数据集基于COCO数据集构建,精心筛选出3,200个样本,均匀分布于四项核心任务,每项任务包含800个样本。每个样本由2至4张图像组成,并配以自然语言提问与二元答案标签。为深入探究模型在计数任务中的表现,样本额外引入了注入标志与对象计数JSON字段,从而构建出具有挑战性的多图像幻觉评测基准。
特点
MIHBench数据集的结构设计兼具系统性与针对性。其四大任务——计数、存在性对抗、存在性常见与存在性随机——分别聚焦于目标计数的一致性判断以及目标存在性的识别能力。存在性对抗任务特别选用稀有或易混淆物体,旨在挑战模型处理复杂视觉场景的鲁棒性。所有任务均采用二元答案格式,便于进行精确的准确率、精确率、召回率与F1分数评估,从而准确量化模型的幻觉倾向。
使用方法
研究者可通过HuggingFace平台便捷加载MIHBench数据集。数据集采用parquet格式存储,提供了count、existence_adversarial、existence_popular与existence_random四个配置项,每个配置项下包含一个训练分割。使用时,首先由图像序列与问题构成输入,模型需输出“yes”或“no”的二元回答,随后通过预设的解析器提取预测结果,并与标注标签对比计算各项评价指标,从而系统评估模型在多图像场景下的幻觉表现。
背景与挑战
背景概述
多模态大语言模型的快速发展催生了对其多图像理解能力的迫切评估需求,然而现有基准多聚焦于单图像场景,未能充分暴露模型在多图像交互中的幻视缺陷。MIHBench数据集由研究团队于2025年发布,发表于ACM Multimedia 2025,基于COCO图像精心构建了3200个样本,涵盖数量、存在性等四种任务,旨在系统性地评估模型在多图像环境下对目标对象的感知与推理能力。该基准通过引入对抗性、常见及随机三类对象存在性判断任务,深入揭示了模型在面对罕见或易混淆对象时的幻视倾向,为多模态领域提供了一项关键评测资源,显著推动了多图像理解研究的标准化与可信度评估。
当前挑战
MIHBench所解决的核心领域挑战是多模态大语言模型在多图像场景下的幻视现象——模型可能错误地声称或否认一个对象同时存在于多张图像中,尤其在对象稀少或语义模糊时表现脆弱。构建过程中,团队需精确调配每一样本中图像数量与对象出现频率,以设计出能区分模型真实能力与随机猜测的实验配置,同时通过注入属性控制样本的复杂性。此外,如何平衡任务间的难度梯度、确保对抗性样本的有效性,以及避免图像来源多样性不足导致的评估偏差,均是数据集开发中所面临的严峻挑战。
常用场景
经典使用场景
在多模态大语言模型(MLLMs)迅猛发展的浪潮中,MIHBench作为首个专门针对多图像场景下幻觉问题的高质量基准数据集,应运而生。该数据集精心构建了3200个样本,横跨计数、存在性对抗、存在性流行与存在性随机四大任务,每个样本包含2至4张源自COCO的图像。其经典使用场景聚焦于系统性评估模型在多图像理解中是否产生与事实不符的幻觉内容,为研究者提供了标准化的测试平台,以量化模型在跨图像推理过程中的准确性与鲁棒性。
解决学术问题
MIHBench的诞生精准击中了当前多模态研究中的痛点——现有基准多局限于单图像任务,难以揭示模型在多图交互中的幻觉倾向。通过引入存在性对抗任务,该数据集巧妙检验模型对罕见或易混淆物体的辨别能力;计数任务则要求模型对跨图像的目标数量进行精确比较。这些设计有效量化了模型在跨图像一致性、物体存在性判断与细粒度计数等维度的表现,推动了学术界对多图像幻觉成因与缓解策略的深入探索,为构建更可信赖的多模态系统奠定了评估基石。
衍生相关工作
MIHBench的问世激发了系列衍生研究工作。基于该基准,研究者提出了多种幻觉缓解策略,包括针对多图像特征的注意力校准方法、基于对比学习的跨图像一致性训练框架,以及融合外部知识的推理增强模型。此外,MIHBench的对抗性任务设计理念被借鉴至图像生成与视频理解领域,催生了评估生成内容一致性新基准的建立。这些工作共同构建了以MIHBench为核心的学术生态,持续推动多模态幻觉研究向纵深发展。
以上内容由遇见数据集搜集并总结生成



