MMPerspective

Name: MMPerspective
Creator: 罗切斯特大学
Published: 2025-05-27 02:20:22
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://yunlong10.github.io/MMPerspective/

下载链接

链接失效反馈

官方服务：

资源简介：

MMPerspective是一个专为评估多模态大型语言模型（MLLMs）对透视理解能力而设计的基准数据集。该数据集由2711个真实世界和合成图像实例组成，包含5083个问题-答案对，旨在探索关键能力，如灭点感知和计数、透视类型推理、三维空间中的线关系理解等。通过全面评估43个最先进的MLLMs，揭示了模型在表面感知任务上的能力，以及在组合推理和保持空间一致性方面的局限性。MMPerspective为诊断和推进视觉语言系统中的空间理解提供了一个宝贵的测试平台。

MMPerspective is a benchmark dataset specifically designed for evaluating the perspective understanding capabilities of multimodal large language models (MLLMs). This dataset consists of 2711 real-world and synthetic image instances, along with 5083 question-answer pairs, and aims to explore key capabilities such as vanishing point perception and counting, perspective type reasoning, and understanding of line relationships in 3D space. Through a comprehensive evaluation of 43 state-of-the-art MLLMs, this work reveals the models' strengths on surface-level perception tasks, as well as their limitations in compositional reasoning and maintaining spatial consistency. MMPerspective serves as a valuable testbed for diagnosing and advancing spatial understanding in vision-language systems.

提供机构：

罗切斯特大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

MMPerspective数据集通过精心设计的流程构建，涵盖了真实世界和合成图像，以确保数据的多样性和代表性。数据来源包括网络采集的建筑和室内场景图像、实际拍摄的生活场景照片、开源RPVP数据集以及通过Blender生成的带有真实消失点坐标的图像。采用混合标注流程，结合人工标注和自动化工具，确保每个图像的任务特定元数据准确无误。质量控制方面，通过多阶段审核流程，包括人工验证自动生成的标注和独立标注者的一致性检查，确保最终数据集的高质量和无歧义性。

使用方法

MMPerspective数据集的使用方法包括多个步骤，旨在全面评估多模态大语言模型在透视理解方面的能力。首先，用户可以通过加载图像和对应的多选问题，测试模型在透视感知、推理和鲁棒性任务上的表现。评估指标包括准确性和鲁棒性得分，后者通过模型在原始图像和扰动变体上的一致性来衡量。用户还可以利用数据集的层次结构，逐步增加任务难度，以诊断模型在不同空间抽象层次上的能力。此外，数据集支持链式思维提示（CoT），鼓励模型进行逐步推理，从而提升性能和鲁棒性。资源可通过项目网站获取，便于研究和应用。

背景与挑战

背景概述

MMPerspective是由罗切斯特大学和卡内基梅隆大学的研究团队于2025年提出的首个专注于评估多模态大语言模型（MLLMs）透视理解能力的基准测试。该数据集包含2,711个真实世界和合成图像实例以及5,083个问答对，涵盖透视感知、推理和鲁棒性三个维度共10项任务。其核心研究问题在于探究MLLMs是否具备类似人类的透视几何理解能力，包括消失点定位、空间关系推理等关键视觉认知技能。该基准的建立填补了当前多模态评估在几何推理方面的空白，为计算机视觉与认知科学的交叉研究提供了重要工具。

当前挑战

MMPerspective面临双重挑战：在领域问题层面，需解决传统MLLMs在组合推理和空间一致性保持方面的缺陷，特别是面对透视保持变换时的性能下降问题；在构建过程中，需克服真实场景透视标注的复杂性，包括消失点精确定位、三维线关系标注等几何约束。此外，合成数据与真实图像的域差异、主观标注歧义消除，以及评估协议的设计都构成了显著的技术难点。

常用场景

经典使用场景

MMPerspective数据集在评估多模态大语言模型（MLLMs）对透视几何的理解能力方面具有经典应用场景。该数据集通过精心设计的10项任务，涵盖透视感知、推理和鲁棒性三个维度，为研究者提供了一个系统化的测试平台。在透视感知任务中，模型需要识别消失点、关键线等几何线索；在推理任务中，模型需进行三维结构解析和场景构图分析；鲁棒性任务则评估模型在图像变换下的空间一致性表现。

解决学术问题

MMPerspective解决了当前MLLMs在几何推理能力评估方面的研究空白。传统基准测试多关注高层视觉语言任务，而忽视了对透视几何这一视觉认知基础要素的系统检验。该数据集揭示了模型在表面感知任务表现尚可，但在组合推理和空间一致性保持方面的显著局限，为诊断模型空间理解缺陷提供了量化依据，推动了几何感知的多模态系统发展。

实际应用

在实际应用层面，MMPerspective的评估结果对增强现实、自动驾驶等需要精确空间理解的领域具有指导价值。通过分析模型在消失点定位、视角判断等任务的表现，可优化视觉定位系统的几何推理模块。其鲁棒性测试方案也为开发抗干扰的工业视觉检测算法提供了验证方法，特别是在处理部分遮挡或视角变化的场景时展现出实用意义。

数据集最近研究