MIRAGE

Name: MIRAGE
Creator: 独立研究者、清华大学、shopee、阿里巴巴国际数字商务、布里斯托尔大学
Published: 2025-05-16 00:08:14
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.10604v1

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE是一个多模态基准数据集，旨在评估模型在计数（对象属性识别）、关系（空间关系推理）和计数与关系组合任务上的能力。数据集由1710个问题组成，涵盖广泛的视觉多样性和推理挑战，包括各种颜色、形状、大小和纹理的对象，以及从简单对到深层嵌套层次的空间关系。MIRAGE通过将计数和关系任务结合，测试模型在复杂场景中同时进行对象身份识别、数量统计和空间配置推理的能力。数据集的设计强调了视觉认知的组合性质，并针对表面级识别和关系理解之间的差距。

MIRAGE is a multimodal benchmark dataset designed to evaluate model capabilities in counting (object attribute recognition), relational (spatial relation reasoning), and combined counting and relational tasks. It consists of 1710 questions, covering a wide range of visual diversity and reasoning challenges, including objects with various colors, shapes, sizes and textures, as well as spatial relations ranging from simple pairs to deeply nested hierarchies. By integrating counting and relational tasks, MIRAGE tests models' ability to simultaneously perform object identity recognition, quantity statistics and spatial configuration reasoning in complex scenarios. The dataset's design emphasizes the compositional nature of visual cognition and targets the gap between surface-level recognition and relational understanding.

提供机构：

独立研究者、清华大学、shopee、阿里巴巴国际数字商务、布里斯托尔大学

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

MIRAGE数据集通过整合多种视觉来源构建而成，包括EPIC-KITCHENS、Sina Weibo、Taobao、Baidu Images等，以确保内容、视觉风格和任务场景的多样性。数据集包含1,710个问题，分为计数、关系推理及其组合任务，每个问题均经过人工标注和严格审查，确保标签的高质量和一致性。此外，数据集还提供了Tiny子集和难度分层的完整版本，便于快速诊断和可扩展评估。

特点

MIRAGE数据集以其多模态特性为核心，专注于评估视觉语言模型在对象计数、空间关系推理及其组合任务中的能力。数据集通过多样化的视觉场景和复杂的推理挑战，如对象遮挡、拥挤场景和引用模糊性，揭示了模型在真实世界视觉推理中的局限性。其任务设计强调视觉认知的组合性，填补了表面识别与关系理解之间的空白。

使用方法

MIRAGE数据集的使用方法包括对视觉语言模型在计数、关系推理及其组合任务中的全面评估。用户可以通过提供的Tiny子集进行快速诊断，或利用完整版本的难度分层进行详细分析。实验设计涵盖提示修改、图像增强和错误模式诊断，以揭示模型在视觉 grounding 和空间推理中的瓶颈。此外，数据集支持多轮提示工程和图像级扰动测试，以评估模型的鲁棒性和泛化能力。

背景与挑战

背景概述

MIRAGE数据集由独立研究员Chonghan Liu、清华大学Haoran Wang等团队于2025年提出，旨在解决多模态模型中空间感知与推理的核心挑战。该基准聚焦物体属性识别（Counting）、空间关系推理（Relation）及其组合任务，通过1710个精细标注的视觉问题，揭示了现有视觉语言模型在遮挡、复杂参照等真实场景下的性能瓶颈。数据集构建融合了EPIC-KITCHENS、社交媒体图像等多元来源，其分层难度设计（Easy/Medium/Hard）为评估模型组合推理能力提供了标准化测试平台，推动了空间认知研究从静态识别向动态推理的范式演进。

当前挑战

MIRAGE面临双重挑战：在领域层面，现有模型对组合式空间推理（如‘桌面上红色容器左侧的物体数量’）的准确率较基础任务下降20%，暴露了视觉 grounding 与符号推理的割裂；在构建层面，数据标注需平衡视觉多样性（遮挡、透视变异）与逻辑复杂性（嵌套关系、模糊参照），人工验证成本极高。实验表明，简单的图像翻转可使模型空间关系判断错误率提升6.1%，而噪声干扰导致计数任务性能下降2.5%，凸显了模型对低级视觉线索的过度依赖。

常用场景

经典使用场景

MIRAGE数据集在计算机视觉领域被广泛用于评估多模态大语言模型在空间感知与推理任务中的表现。其经典使用场景包括对象计数、空间关系理解以及两者的组合任务，这些任务要求模型在复杂场景中识别对象属性并推断其空间关系。通过精心设计的难度分层和多样化视觉内容，MIRAGE为研究者提供了一个标准化平台，用于测试模型在遮挡、模糊引用和组合推理等挑战下的鲁棒性。

衍生相关工作

MIRAGE的发布推动了空间推理基准的系列研究，包括GSR-BENCH对3D空间关系的扩展、STI-Bench对时空推理的探索等。其任务设计思想被后续工作如SpatialBot继承，用于开发专注于空间定位的专用模型。同时，该数据集揭示的提示工程优化策略（如分阶段推理提示）已成为多模态模型研究的标准技术，影响了LLaVA、MiniCPM等开源项目的开发路线。

数据集最近研究