MMSI-Bench

Name: MMSI-Bench
Creator: 上海人工智能实验室, 香港中文大学, 浙江大学, 清华大学, 上海交通大学, 香港大学, 北京师范大学
Published: 2025-05-30 01:59:52
License: 暂无描述

arXiv2025-05-30 更新2025-05-31 收录

下载链接：

https://runsenxu.com/projects/MMSI_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MMSI-Bench是一个专门用于评估多图像空间智能的VQA基准数据集。该数据集由六位3D视觉研究人员耗时超过300小时，从超过12万张图像中精心挑选出1000个具有挑战性、明确的多个选择题，每个问题都配有一套精心设计的干扰项和逐步推理过程。数据集涵盖广泛的现实场景，包括室内扫描、户外驾驶录像、机器人操作和日常活动等。数据集的构建过程包括数据收集、问题-答案设计和推理过程标注等环节。该数据集旨在解决现有基准测试只能探测单图像关系的问题，从而无法评估真实世界部署所需的多图像空间推理能力。

MMSI-Bench is a VQA benchmark dataset specifically designed for evaluating multi-image spatial intelligence. This dataset was curated by six 3D vision researchers over a period of more than 300 hours, who carefully selected 1000 challenging and well-defined multiple-choice questions from over 120,000 images. Each question is accompanied by a set of meticulously designed distractors and step-by-step reasoning processes. The dataset covers a broad spectrum of real-world scenarios, including indoor scans, outdoor driving footage, robotic manipulation, and daily activities, among others. The construction pipeline of the dataset encompasses data collection, question-answer pair design, and reasoning process annotation, among other steps. This dataset aims to address the limitation of existing benchmarks, which can only probe relationships within a single image and thus fail to evaluate the multi-image spatial reasoning capabilities required for real-world deployment.

提供机构：

上海人工智能实验室, 香港中文大学, 浙江大学, 清华大学, 上海交通大学, 香港大学, 北京师范大学

创建时间：

2025-05-30

原始信息汇总

MMSI-Bench: 多图像空间智能基准

数据集概述

名称: MMSI-Bench
类型: VQA（视觉问答）基准
专注领域: 多图像空间智能
数据规模: 1,000个挑战性问题
图像来源: 120,000+张真实场景图像
标注团队: 6位3D视觉研究人员（耗时300+小时）

核心特点

问题类型: 多选题
标注内容:
- 精心设计的干扰项
- 逐步推理注释
核心要求: 必须跨多图像推理（无法通过单图像回答）

任务分类

三大空间要素:
- 相机
- 物体
- 区域
六种位置关系:
- 相机-相机
- 相机-物体
- 相机-区域
- 物体-物体
- 物体-区域
- 区域-区域
属性类型:
- 测量
- 外观
运动类型:
- 相机运动
- 物体运动
额外类别: 多步推理

基准表现（2025-05）

排名	模型	平均准确率(%)	类型
🥇	Human Level	97.2	Baseline
🥈	o3	41.0	Proprietary
🥉	GPT-4.5	40.3	Proprietary
4	Gemini-2.5-Pro--Thinking	37.0	Proprietary
5	Gemini-2.5-Pro	36.9	Proprietary

错误分析

四大主导错误类型: 空间推理中的典型失败模式
自动化分析: 提供错误分布诊断管道

数据来源

ScanNet, nuScenes, Matterport3D, Ego4D, AgiBot-World, DTU, DAVIS-2017, Waymo

文献引用

bibtex @article{yang2025mmsi, title={MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence}, author={Yang, Sihan and Xu, Runsen and Xie, Yiman and Yang, Sizhe and Li, Mo and Lin, Jingli and Zhu, Chenming and Chen, Xiaochen and Duan, Haodong and Yue, Xiangyu and Lin, Dahua and Wang, Tai and Pang, Jiangmiao}, journal={arXiv preprint arXiv:2505.23764}, year={2025} }

搜集汇总

数据集介绍

构建方式

MMSI-Bench是一个专注于多图像空间智能评估的基准数据集，由六位3D视觉研究人员经过300多个小时的精心构建。数据收集自八个不同的真实世界数据集，包括室内3D场景数据集（如ScanNet和Matterport3D）、自动驾驶数据集（如nuScenes和Waymo）以及机器人数据集（如AgiBot-World）。每个问题均由研究人员从超过120,000张候选图像中筛选出相关图像集，设计具有挑战性且明确的多选题，并配以详细的推理过程和精心设计的干扰选项。所有数据经过严格的质量控制，确保问题的多样性和准确性。

使用方法

MMSI-Bench主要用于评估多模态大语言模型（MLLMs）在多图像空间推理任务上的表现。用户可以通过提供的多图像问题和多选题格式，测试模型的空间理解能力。数据集支持多种评估方式，包括直接回答、零样本思维链（Zero-Shot CoT）和视觉提示（Visual Prompting）。此外，利用标注的推理过程，用户可以进一步分析模型的错误类型（如基础错误、场景重建错误等），从而为模型改进提供具体方向。数据集以JSON格式存储，包含图像路径、问题文本、选项、正确答案和推理过程，便于集成到现有评估流程中。

背景与挑战

背景概述

MMSI-Bench是由上海人工智能实验室等机构的研究团队于2025年提出的多图像空间智能基准测试。该数据集聚焦于评估多模态大语言模型（MLLMs）在复杂物理环境中的多图像空间推理能力，填补了现有基准测试仅关注单图像空间关系的空白。研究团队耗时300多小时，从12万张图像中精心筛选并构建了1000个具有挑战性的多项选择题，涵盖相机、物体和区域三大空间要素的十类基础推理任务。该数据集通过人类专家标注的逐步推理过程，为自动化错误分析提供了重要支持，在推动空间智能研究方面具有里程碑意义。

当前挑战

MMSI-Bench面临的核心挑战体现在两个方面：在领域问题层面，现有MLLMs在跨图像空间关系推理（如相机运动追踪、物体相对位置判断）和多步逻辑推理方面表现欠佳，最优模型准确率仅40%，远低于人类97%的水平；在构建过程中，研究团队需克服图像筛选的复杂性（确保问题必须通过多图像联合推理解决）、问题设计的多样性（避免模板化并保持自然语言表达）以及标注质量的严格控制（消除歧义和单图像可解问题）等挑战。此外，数据集的扩展性受限于人工标注的高成本，且需平衡问题难度与覆盖范围的矛盾。

常用场景

经典使用场景

MMSI-Bench作为多图像空间智能评估基准，其经典使用场景聚焦于测试多模态大语言模型（MLLMs）在复杂真实环境中的跨图像空间推理能力。通过精心设计的1000个多选问题，研究者可评估模型对相机位姿、物体相对位置、区域关系等十类空间任务的解决能力，例如从连续拍摄的室内外场景图像中推断物体的运动轨迹或相对方位。

解决学术问题

该数据集解决了现有基准单图像空间关系评估的局限性，填补了多图像空间逻辑推理系统性测评的空白。通过人类专家标注的逐步推理过程，可精准诊断模型在空间基础错误、场景重建错误等四类典型错误上的缺陷，为提升MLLMs在具身智能、自动驾驶等领域的空间认知能力提供量化依据。

实际应用

在实际应用中，MMSI-Bench可优化服务机器人的环境交互能力，如通过多视角图像理解房间布局以规划导航路径；在自动驾驶领域，其评估框架能验证车载系统对连续街景的空间关系建模精度。数据集涵盖的机器人操作、室内扫描等真实场景，直接支撑智能体在物理世界中的决策可靠性。

数据集最近研究