MARBLE

github2025-07-01 更新2025-07-03 收录

下载链接：

https://github.com/eth-medical-ai-lab/multimodal-reasoning-bench

下载链接

链接失效反馈

官方服务：

资源简介：

MARBLE是一个具有挑战性的多模态推理基准，旨在仔细审查多模态语言模型（MLLMs）在复杂多模态问题和环境中逐步推理的能力。MARBLE由两个极具挑战性的任务组成，M-Portal和M-Cube，需要利用空间、视觉和物理约束来制定和理解多步计划。

MARBLE is a challenging multimodal reasoning benchmark designed to meticulously assess the ability of multimodal language models (MLLMs) to gradually reason through complex multimodal problems and environments. Comprising two highly challenging tasks, M-Portal and M-Cube, it necessitates the utilization of spatial, visual, and physical constraints to formulate and understand multi-step plans.

创建时间：

2025-06-30

原始信息汇总

MARBLE: 多模态空间推理与规划硬基准数据集

数据集概述

名称: MARBLE (Multimodal Reasoning Benchmark)
目标: 评估多模态语言模型(MLLMs)在复杂多模态问题和环境中的逐步推理能力
特点: 包含两个高难度任务(M-Portal和M-Cube)，要求利用空间、视觉和物理约束制定和理解多步计划
当前模型表现: 12个先进模型在M-Portal上表现接近随机，在M-Cube上准确率为0%

数据集构成

M-Portal任务:
- 评估模型计划正确性(plan-correctness)和填空能力(fill-the-blanks)
- 需要下载地图图像: https://huggingface.co/datasets/mrble/MARBLE/resolve/main/images.zip
M-Cube任务:
- 包含完整任务(cube)、简化任务(cube_easy)和感知子任务(cube_perception)

评估方法

评估脚本:
- M-Cube: eval_cube_api.py 或 eval_cube_local.py
- M-Portal: eval_portal.py 或 eval_portal_local.py
输出结果: 保存在./output目录

引用信息

bibtex @article{jiang2025marble, title={MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning}, author={Jiang, Yulun and Chai, Yekun and Brbic, Maria and Moor, Michael}, journal={arXiv preprint arXiv:2506.22992}, year={2025}, url={https://arxiv.org/abs/2506.22992} }

联系方式

Yulun Jiang: yulun.jiang@epfl.ch

搜集汇总

数据集介绍

构建方式

MARBLE数据集的构建聚焦于多模态空间推理与规划领域，通过设计两个高度复杂的任务M-Portal和M-Cube来评估多模态语言模型的推理能力。M-Portal任务要求模型在多步骤计划中结合空间和视觉约束进行推理，而M-Cube任务则进一步挑战模型在物理约束下的规划能力。数据集的构建过程严格遵循科学实验设计原则，确保任务具有足够的挑战性和多样性，以全面评估模型的性能。

特点

MARBLE数据集以其高度挑战性和多模态特性著称，特别适合评估模型在复杂推理和规划任务中的表现。数据集包含丰富的视觉和空间信息，要求模型不仅能够理解多模态输入，还需进行多步骤推理。当前先进的多模态语言模型在MARBLE上的表现接近随机水平，尤其在M-Cube任务中准确率为零，凸显了该数据集在揭示模型局限性方面的独特价值。

使用方法

使用MARBLE数据集时，用户需首先配置运行环境，安装必要的依赖库。数据集提供了详细的评估脚本，用户可通过替换API密钥和选择不同的子集来评估模型性能。例如，M-Cube任务支持cube、cube_easy和cube_perception三个子集，分别对应不同难度的评估任务。M-Portal任务则提供portal_binary和portal_blanks两个子集，用于评估模型的计划正确性和填空能力。评估结果将自动保存至指定目录，便于后续分析。

背景与挑战

背景概述

MARBLE是由瑞士洛桑联邦理工学院（EPFL）的研究团队于2025年提出的一个多模态空间推理与规划基准测试集，主要研究人员包括Yulun Jiang等。该数据集旨在评估多模态语言模型（MLLMs）在复杂多模态环境中的逐步推理和规划能力。MARBLE包含两个高难度任务——M-Portal和M-Cube，要求模型能够结合空间、视觉和物理约束进行多步推理和规划。研究团队发现，当前先进的MLLMs在MARBLE上的表现接近随机水平，尤其在M-Cube任务上准确率为0%，揭示了现有模型在复杂推理任务上的局限性。MARBLE的提出为多模态推理领域的研究提供了新的挑战方向，推动了下一代多模态推理模型的发展。

当前挑战

MARBLE数据集针对多模态空间推理与规划任务提出了严峻挑战。在领域问题方面，现有MLLMs难以处理需要结合多种模态信息（如空间关系和视觉输入）的复杂推理任务，特别是在多步规划场景中表现尤为不佳。感知能力成为关键瓶颈，模型往往无法准确提取视觉输入中的关键信息。在构建过程中，研究团队面临如何设计既具有挑战性又能准确评估模型能力的任务，以及如何确保数据集的多样性和复杂性以覆盖真实世界场景的难题。这些挑战突显了当前多模态推理技术的不足，为未来研究指明了改进方向。

常用场景

经典使用场景

在人工智能领域，多模态推理能力一直是研究的重点和难点。MARBLE数据集通过设计M-Portal和M-Cube两项高难度任务，为评估多模态语言模型（MLLMs）在复杂空间推理和规划能力方面提供了标准化的测试平台。研究者可以利用该数据集，系统地检验模型在理解视觉输入、处理空间约束以及制定多步计划等方面的表现，从而推动多模态推理技术的发展。

实际应用

MARBLE数据集的实际应用价值体现在智能机器人导航、虚拟现实交互等需要复杂空间推理的场景中。例如，在机器人路径规划任务中，模型需要像解决M-Portal任务那样综合考虑空间布局和物理约束；而在虚拟环境构建中，M-Cube任务所要求的立方体组装能力则直接对应于物体摆放和场景合成的需求。该数据集为这些应用场景提供了可靠的性能评估标准。

衍生相关工作

MARBLE数据集的发布催生了一系列关于提升多模态模型推理能力的研究。基于该基准测试结果，研究者们开始探索新型的架构设计，如引入显式的空间推理模块或改进视觉编码器。同时，该数据集也启发了其他复杂推理基准的构建，推动了多模态推理评估标准的发展，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成