MMSI-Bench

github2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/OpenRobotLab/MMSI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

空间智能对于在物理世界中运行的多模态大型语言模型（MLLMs）至关重要。然而，现有的基准测试仅探测单图像关系，因此无法评估实际部署所需的多图像空间推理能力。我们引入了MMSI-Bench，这是一个专门用于多图像空间智能的VQA基准测试。六名3D视觉研究人员花费了300多个小时，从超过120,000张图像中精心制作了1,000个具有挑战性、明确无误的多选题，每个问题都配有精心设计的干扰项和逐步推理过程。我们进行了广泛的实验，评估了34个开源和专有的MLLMs，观察到一个巨大的差距：最强的开源模型准确率约为30%，OpenAI的o3推理模型达到40%，而人类得分97%。这些结果突显了MMSI-Bench的挑战性以及未来研究的巨大空间。利用标注的推理过程，我们还提供了一个自动化的错误分析流程，诊断了四种主要的失败模式，包括（1）基础错误，（2）重叠匹配和场景重建错误，（3）情境转换推理错误，以及（4）空间逻辑错误，为推进多图像空间智能提供了见解。

Spatial intelligence is crucial for multimodal large language models (MLLMs) operating in the physical world. However, existing benchmark tests only probe single-image relationships, thereby failing to assess the required multi-image spatial reasoning capabilities for actual deployment. We introduce MMSI-Bench, a specialized benchmark for multi-image spatial intelligence in VQA. Six 3D vision researchers spent over 300 hours meticulously curating 1,000 challenging, unambiguous multiple-choice questions from over 120,000 images, each question accompanied by carefully designed distractors and a step-by-step reasoning process. We conducted extensive experiments, evaluating 34 open-source and proprietary MLMMs, observing a significant gap: the strongest open-source model achieved an accuracy of approximately 30%, with OpenAI's o3 inference model reaching 40%, while human scores were 97%. These results highlight the challenging nature of MMSI-Bench and the vast room for future research. Utilizing annotated reasoning processes, we also provide an automated error analysis pipeline, diagnosing four main failure modes, including (1) fundamental errors, (2) overlapping match and scene reconstruction errors, (3) scenario transition reasoning errors, and (4) spatial logic errors, providing insights for advancing multi-image spatial intelligence.

创建时间：

2025-05-29

原始信息汇总

MMSI-Bench 数据集概述

基本信息

数据集名称: MMSI-Bench
开发团队: 上海人工智能实验室等机构联合开发
发布日期: 2025-05-30
数据集类型: 多图像空间智能VQA基准测试
许可协议: CC BY-NC 4.0

数据集内容

数据规模: 1,000个精心设计的多选题
图像来源: 超过120,000张图像
开发耗时: 6名3D视觉研究人员耗时超过300小时
问题特点:
- 每个问题配有精心设计的干扰项
- 包含逐步推理过程
- 问题需要多图像信息进行解答

任务分类

基本类型: 10类
多步推理: 1类
空间元素:
- 相机(agent)
- 对象(环境实体)
- 区域(语义区域如房间)
位置关系: 6类(相机-相机、相机-对象、相机-区域、对象-对象、对象-区域、区域-区域)
属性推理: 2类(测量和外观)
运动推理: 2类(相机运动和对象运动)

评估结果

人类表现: 97.2%
最佳开源模型: Qwen2.5-VL-72B (30.7%)
最佳专有模型: o3 (41.0%)
随机猜测基线: 25.0%

数据加载

python from datasets import load_dataset vsi_bench = load_dataset("RunsenXu/MMSI-Bench") print(dataset)

评估方法

使用VLMEvalKit进行评估
支持API模型和HuggingFace模型

引用

bibtex @article{yang2025mmsi, title={MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence}, author={Yang, Sihan and Xu, Runsen and Xie, Yiman and Yang, Sizhe and Li, Mo and Lin, Jingli and Zhu, Chenming and Chen, Xiaochen and Duan, Haodong and Yue, Xiangyu and Lin, Dahua and Wang, Tai and Pang, Jiangmiao}, journal={arXiv preprint arXiv:2505.23764}, year={2025} }

致谢

使用了来自以下数据集的部分数据:

ScanNet
nuScenes
Matterport3D
Ego4D
AgiBot-World
DTU
DAVIS-2017
Waymo

联系方式

Sihan Yang: sihany077@gmail.com
Runsen Xu: runsxu@gmail.com

搜集汇总

数据集介绍

构建方式

在空间智能研究领域，MMSI-Bench通过系统化的构建流程确立了新的评估标准。六位3D视觉专家历时300余小时，从超过12万张图像中精心筛选并构建了1,000道具有挑战性的多选题。每道题目均配备精确设计的干扰项和逐步推理说明，确保评估的严谨性和准确性。数据集构建过程严格遵循多图像空间推理的逻辑框架，涵盖十种基础任务类型和一种多步推理类别，全面考察模型对三维空间关系的理解能力。

使用方法

该数据集可通过Hugging Face平台便捷加载，技术实现简洁高效。研究人员使用标准接口即可获取完整的基准数据，包括多图像组、对应问题及标注答案。评估流程依托VLMEvalKit框架，支持对开源模型和商业API的标准化测试。数据集提供的自动化错误分析管道能精确定位四大典型错误模式，为模型改进提供明确方向。通过对比人类基线表现与模型成绩，研究者可准确衡量多模态大语言模型的空间智能发展水平。

背景与挑战

背景概述

MMSI-Bench是由上海人工智能实验室联合多所高校研究人员于2025年推出的多图像空间智能评测基准。该数据集针对多模态大语言模型在物理世界交互中的空间推理能力缺陷，系统性地构建了包含10种基础类型和1种多步推理类别的评测体系，涵盖相机、物体、区域三大空间要素及其交互关系。研究团队历时300余小时，基于12万张图像精心设计了1000道具有干扰项的多选题，并标注了逐步推理过程。作为首个专注于多图像空间关系理解的评测基准，其97%的人类表现与现有模型40%的最佳成绩之间的显著差距，揭示了该领域亟待突破的技术瓶颈。

当前挑战

MMSI-Bench面临的挑战主要体现在两个方面：在领域问题层面，现有模型在跨图像空间关系理解中存在四大典型错误模式，包括基础 grounding 误差（21.7%）、场景重建匹配误差（19.3%）、情境转换推理误差（18.1%）和空间逻辑误差（16.2%），反映出多图像时空关联建模的技术难点；在构建层面，需克服多源异构数据（ScanNet、nuScenes等8个数据集）的空间坐标系统一、复杂空间关系的问题设计，以及避免标注歧义性等挑战，这些因素共同导致单个问题平均需要18分钟的专家标注时间。

常用场景

经典使用场景

在计算机视觉与多模态大语言模型（MLLMs）交叉领域，MMSI-Bench通过构建包含多图像空间关系的复杂问答任务，成为评估模型跨图像空间推理能力的基准工具。其精心设计的1000道多选题覆盖了相机、物体、区域间的十类空间关系及多步推理场景，为研究者提供了系统化测试模型对三维空间动态理解能力的标准化框架。

解决学术问题

该数据集有效解决了当前MLLMs在真实物理世界应用中面临的三大核心挑战：单图像推理局限、复杂空间关系建模不足以及动态场景理解缺失。通过标注四类典型错误模式（如 grounding errors 和 spatial-logic errors），为学术界揭示了多模态空间智能的瓶颈所在，推动了对跨模态时空表征、关系归纳偏置等基础理论问题的深入研究。

实际应用

在自动驾驶、增强现实等需要实时环境交互的领域，MMSI-Bench的评估范式可直接迁移至系统性能验证。其构建的120,000+图像对及其空间关系标注，为机器人路径规划、智能监控等应用提供了高质量的跨视角关联数据，显著提升了设备在动态场景中的空间认知鲁棒性。

数据集最近研究