Mind’s Eye
收藏arXiv2026-04-17 更新2026-04-21 收录
下载链接:
https://github.com/microsoft/Mind-s-Eye
下载链接
链接失效反馈官方服务:
资源简介:
Mind’s Eye是由微软研究院和印度理工学院海得拉巴分校联合开发的视觉认知评测基准,包含8项基于抽象-关系-转化(ART)分类法的多选任务。该数据集通过程序化生成的矢量图形刺激材料,系统评估多模态大语言模型在模式归纳、类比映射和心理旋转等流体智力核心能力上的表现。其设计遵循认知隔离原则,剔除语言先验干扰,并配备诊断性干扰项以定位模型错误类型。该基准旨在揭示当前模型在视觉空间推理方面的局限性,推动更具认知基础的评估框架发展。
Mind’s Eye is a visual cognition evaluation benchmark jointly developed by Microsoft Research and the Indian Institute of Technology Hyderabad, comprising eight multiple-choice tasks based on the Abstract-Relation-Transformation (ART) taxonomy. This benchmark systematically evaluates the core fluid intelligence capabilities of multimodal large language models (LLMs), including pattern induction, analogical mapping, and mental rotation, using programmatically generated vector graphic stimuli. Its design adheres to the cognitive isolation principle, eliminating language prior interference, and is equipped with diagnostic distractors to pinpoint the types of model errors. This benchmark aims to reveal the limitations of current models in visual-spatial reasoning, and advance the development of cognition-grounded evaluation frameworks.
提供机构:
印度理工学院海得拉巴分校·计算机科学与工程系; 微软研究院
创建时间:
2026-04-17
搜集汇总
数据集介绍

构建方式
在视觉认知科学领域,为系统评估多模态大语言模型的视觉空间推理能力,Mind’s Eye数据集通过程序化生成方法构建。该数据集以经典的认知心理学测试为蓝本,如心理旋转与纸张折叠任务,并依据抽象-关系-转换(ART)分类学框架,设计了涵盖八个视觉认知任务的多选题评测集。所有刺激材料均采用可缩放矢量图形程序化生成,确保几何参数精确可控,并通过因子设计独立调整结构复杂度与无关变量,从而实现对任务难度的系统校准与混淆因素的严格隔离。
特点
Mind’s Eye数据集的核心特点在于其深厚的认知科学基础与精细的诊断设计。数据集以ART分类学为理论框架,明确区分了抽象、关系与转换三大视觉认知维度,能够针对性地评估模型在模式归纳、类比映射与心理模拟等核心流体智力成分上的表现。每个题目均配备了经过精心设计的诊断性干扰项,这些干扰项与特定的推理错误类型相对应,例如镜像混淆、折叠奇偶性错误或表面特征匹配偏差,从而支持对模型失败模式的细粒度归因分析。
使用方法
该数据集主要用于评测与诊断多模态大语言模型的视觉认知推理能力。研究者可将模型的图像与文本输入按标准化提示模板组合,要求模型从多个选项中选择答案。通过对比模型在不同ART维度任务上的表现与人类基线,能够系统性地揭示模型在视觉注意力分配、内部知觉操作与概念抽象等方面的局限。此外,数据集支持多种提示策略的对比实验,如思维链、元任务框架等,以探究不同指令引导对模型推理过程的影响,为改进模型架构与训练方法提供实证依据。
背景与挑战
背景概述
Mind’s Eye 数据集由微软研究院与印度理工学院海得拉巴分校的研究团队于2026年联合提出,旨在系统评估多模态大语言模型在视觉认知与空间推理方面的核心能力。该数据集以经典人类智力测试为蓝本,构建了涵盖抽象、关系与转换三大维度的八项认知任务,形成独特的A-R-T分类体系。其设计初衷源于当前MLLMs在复杂视觉任务中表现出的局限性,尤其是模型在需要心理模拟与内部表征操作的任务上远逊于人类水平。通过程序化生成的合成刺激与精心设计的诊断性干扰项,Mind’s Eye 为深入探究模型的视觉流体智能提供了严谨且可扩展的评估框架,推动了多模态推理研究向认知科学基础的方向演进。
当前挑战
Mind’s Eye 数据集所应对的核心领域挑战在于系统评估MLLMs的视觉空间推理能力,特别是模型在需要心理旋转、折叠与组合等内部模拟任务上的表现。现有模型在转换与抽象任务中准确率不足50%,远低于人类80%的水平,揭示出模型在视觉注意力分配、内部知觉操作及基础概念抽象等方面存在显著缺陷。在构建过程中,研究团队面临确保任务认知隔离、设计诊断性干扰项以及实现参数化难度调控等多重挑战。通过程序化生成合成刺激并严格排除语言先验与领域知识干扰,数据集成功实现了对视觉认知能力的纯净测量,为识别模型推理瓶颈提供了精细化的分析工具。
常用场景
经典使用场景
在多模态大语言模型(MLLMs)的评估领域,Mind’s Eye数据集被广泛用于系统性地检验模型在视觉认知与空间推理方面的核心能力。该数据集通过程序化生成的合成视觉刺激,构建了涵盖抽象、关系与变换三大维度的八项认知任务,为研究者提供了一个可控且诊断性强的评估平台。在经典使用场景中,研究者利用Mind’s Eye对各类MLLMs进行基准测试,通过多项选择题形式量化模型在心理旋转、纸张折叠、模式归纳等任务上的表现,从而揭示模型在视觉空间推理方面的内在局限与人类认知之间的显著差距。
解决学术问题
Mind’s Eye数据集主要解决了多模态大语言模型在视觉认知评估中存在的关键学术问题。传统视觉语言基准往往侧重于表面感知与规模测试,未能深入探究模型对视觉信息的内部模拟与变换能力。该数据集通过引入基于认知心理学经典测试的ART分类法,将视觉推理分解为抽象、关系与变换三个核心过程,从而隔离了视觉空间推理与世界知识及语言先验的混淆。其诊断性干扰项设计使得研究者能够精细分析模型失败的具体原因,例如注意力分配偏差、内部感知操作缺失或视觉概念抽象能力薄弱,为理解MLLMs的认知机制提供了实证基础。
衍生相关工作
Mind’s Eye数据集的推出催生了一系列围绕视觉认知评估的衍生研究工作。基于其ART分类法,后续研究扩展了针对特定认知维度的诊断性基准,例如在视觉关系映射或心理变换任务上设计更细粒度的评估工具。同时,该数据集激发了关于多模态模型注意力机制与推理过程对齐的深入分析,促使研究者开发新的提示策略与架构改进以弥补模型在视觉空间操作上的缺陷。此外,Mind’s Eye与现有基准(如RAVEN、CLEVR)的比较研究进一步推动了视觉推理评估向认知科学基础的靠拢,为构建更全面、可控的多模态评估生态奠定了基础。
以上内容由遇见数据集搜集并总结生成



