MARBLE
收藏arXiv2025-06-29 更新2025-07-02 收录
下载链接:
https://marble-benchmark.github.io
下载链接
链接失效反馈官方服务:
资源简介:
MARBLE是一个用于评估多模态语言模型(MLLMs)在复杂多模态问题和环境中的推理和规划能力的高难度基准。数据集包含两个挑战性任务:M-Portal和M-Cube,它们要求在空间、视觉和物理约束下制定和理解多步骤计划。M-Portal任务涉及规划、空间推理和多模态集成,灵感来源于游戏Portal 2。M-Cube任务要求将六块拼图式的拼块组装成目标立方体形状,灵感来源于Happy Cube拼图。每个任务都包含两个不同难度的子任务。数据集共有1536个样本,旨在推动下一代模型在多步多模态推理和规划能力方面的发展。
MARBLE is a challenging benchmark for evaluating the reasoning and planning capabilities of Multimodal Language Models (MLLMs) in complex multimodal problems and environments. The dataset comprises two demanding tasks: M-Portal and M-Cube, which require formulating and understanding multi-step plans under spatial, visual, and physical constraints. The M-Portal task involves planning, spatial reasoning, and multimodal integration, inspired by the video game Portal 2. The M-Cube task requires assembling six puzzle pieces into a target cube shape, with inspiration drawn from the Happy Cube puzzle. Each task includes two subtasks of differing difficulty levels. The dataset consists of 1,536 total samples, designed to drive the advancement of multi-step multimodal reasoning and planning capabilities for next-generation models.
提供机构:
瑞士联邦理工学院(EPFL), 苏黎世联邦理工学院(ETH Zurich)
创建时间:
2025-06-29
原始信息汇总
MARBLE: 多模态空间推理与规划的硬基准
数据集概述
- 包含2个子数据集:M-Portal和M-CUBE
- 每个子数据集包含2个子任务
- 设计目的:检验多模态语言模型(MLLMs)在复杂多模态问题中的逐步推理能力
M-Portal数据集
基本信息
- 数据量:1,024个视觉问答任务
- 数据来源:16个精心策划的《Portal 2》游戏地图
- 子任务:
- Plan-correctness(计划正确性验证):512个问题
- Fill-the-blanks(填补缺失步骤):512个问题
模型表现
| 模型 | Plan-correctness (F1 %) | Fill-the-blanks (Acc %) |
|---|---|---|
| GPT-o3 | 6.6 | 17.6 |
| Gemini-2.5-pro | 4.7 | 16.1 |
| DeepSeek-R1-0528* | 0.0 | 8.4 |
| Claude-3.7-Sonnet | 6.3 | 6.8 |
| DeepSeek-R1* | 6.1 | 5.5 |
| Seed1.5-VL | 7.6 | 3.5 |
| GPT-o4-mini | 0.0 | 3.1 |
| GPT-4o | 6.5 | 0.4 |
| Llama-4-Scout | 6.5 | 0.2 |
| Qwen2.5-VL-72B | 6.6 | 0.2 |
| InternVL3-78B | 6.4 | 0.0 |
| Qwen3-235B-A22B* | 0.0 | 0.0 |
| Random | 6.1 | 3e-3 |
M-CUBE数据集
基本信息
- 任务类型:3D空间推理
- 核心任务:将6个拼图块组装成立方体
- 数据量:
- CUBE(完整难度):1,000个示例
- CUBE-easy(简化版):1,000个示例
模型表现
| 模型 | CUBE (Acc %) | CUBE-easy (Acc %) |
|---|---|---|
| GPT-o3 | 0.0 | 72.0 |
| GPT-o4-mini | 0.0 | 16.0 |
| DeepSeek-R1* | 0.0 | 14.0 |
| Gemini-2.5-pro | 0.0 | 11.0 |
| DeepSeek-R1-0528* | 0.0 | 8.0 |
| Claude-3.7-Sonnet | 0.0 | 7.4 |
| InternVL3-78B | 0.0 | 2.8 |
| Seed1.5-VL | 0.0 | 2.0 |
| GPT-4o | 0.0 | 2.0 |
| Qwen2.5-VL-72B | 0.0 | 2.0 |
| Llama-4-Scout | 0.0 | 1.6 |
| Qwen3-235B-A22B* | 0.0 | 0.3 |
| Random | 1e-5 | 3.1 |
引用信息
bibtex @article{jiang2025marble, title={MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning}, author={Jiang, Yulun and Chai, Yekun and Brbic, Maria and Moor, Michael}, journal={arXiv preprint arXiv:2506.22992}, year={2025}, url={http://arxiv.org/abs/2506.22992} }
搜集汇总
数据集介绍

构建方式
MARBLE数据集的构建采用了多模态融合与复杂空间推理任务的结合方式,通过精心设计的M-Portal和M-Cube两大任务,涵盖了从视觉理解到多步推理的全方位挑战。M-Portal任务基于Portal 2游戏机制,通过人工筛选高难度社区地图并抽象为视觉问答任务,生成了包含1024个问题的数据集,其中每个问题均需模型整合多幅地图截图和文本指令以生成连贯的多步解决方案。M-Cube任务则采用合成数据生成方法,通过算法分解5×5×5立方体表面为六块拼图,并随机渲染视角以增加视觉多样性,最终构建了2000个3D空间拼图问题。数据收集过程中特别注重物理约束的准确性和任务复杂度,例如在M-Portal中人工标注了包含5种典型错误的干扰步骤库,在M-Cube中设计了精确的边缘咬合验证机制。
特点
MARBLE的核心特征体现在其前所未有的多模态推理深度和严格的评估体系。该数据集首创了'过程导向'的评估范式,不仅关注最终答案准确性,更通过计划正确性和填空任务等创新形式,系统评估模型中间推理步骤的合理性。M-Portal任务通过长达数十步的动作序列和动量守恒等物理规则,检验模型在复杂空间约束下的长期规划能力;M-Cube则通过高达188,743,680种可能的拼图组合,测试模型在组合爆炸空间中的系统性推理能力。特别值得注意的是,数据集包含完善的验证机制——M-Portal提供黄金标准推理轨迹和干扰步骤库,M-Cube配备可反馈边缘冲突的解决方案验证器,为模型自我修正提供了结构化支持。
使用方法
使用MARBLE基准测试需遵循其多模态交互式评估框架。对于M-Portal任务,研究者需将模型输出的多步计划与标注的黄金标准进行比对,通过F1分数和准确率量化计划完整性及步骤正确性。填空任务则要求模型从干扰选项中识别缺失步骤,评估其对上下文推理链的理解深度。M-Cube任务采用开放式评估,通过内置验证器自动检测拼图方案的物理可行性,支持二进制反馈(正确/错误)和详细反馈(边缘冲突定位)两种模式。为提高评估效率,建议采用渐进式测试策略:先在CUBE-easy子任务验证基础视觉理解能力,再逐步挑战完整版CUBE任务。对于先进模型,可启用验证器的迭代反馈功能,模拟人类'试错-修正'的真实推理过程。
背景与挑战
背景概述
MARBLE(MultimodAl Reasoning Benchmark for Language modEls)是由EPFL和ETH Zurich的研究团队于2025年推出的多模态空间推理与规划基准数据集,旨在填补现有基准在复杂多模态推理评估上的空白。该数据集包含M-Portal和M-Cube两大任务,分别基于经典解谜游戏《Portal 2》和Happy Cube拼图设计,要求模型在空间、视觉和物理约束下进行多步骤推理。作为首个强调过程而非结果的评测基准,MARBLE通过提供黄金标准推理轨迹和中间步骤验证机制,推动了多模态大语言模型(MLLMs)在具身智能和复杂环境交互方面的研究。
当前挑战
MARBLE面临的核心挑战体现在两个维度:领域问题层面,现有MLLMs在空间关系建模、长链条逻辑推理和物理规则理解上表现堪忧,12个前沿模型在M-Cube任务中准确率均为0%;数据构建层面,需解决多模态对齐的复杂性(如Portal游戏动量守恒规则的可视化表征)、组合爆炸问题(M-Cube存在1.88亿种可能的解空间),以及人工标注中高精度物理约束验证的工程挑战。此外,基准测试揭示当前模型的感知瓶颈——即使简单结构化视觉输入(5×5网格)的识别准确率不足80%,严重制约多模态推理能力。
常用场景
经典使用场景
MARBLE数据集在评估多模态语言模型(MLLMs)的复杂空间推理和规划能力方面具有经典应用场景。通过M-Portal和M-Cube两个任务,该数据集要求模型在空间、视觉和物理约束下进行多步骤推理和规划,从而揭示模型在多模态环境中的推理能力。M-Portal任务模拟了Portal 2游戏中的复杂空间推理问题,而M-Cube任务则要求模型在三维空间中进行拼图组装,两者均需要模型具备高度的多模态信息整合能力。
实际应用
MARBLE数据集的实际应用场景广泛,尤其在需要多模态推理和规划的领域表现出色。例如,在机器人导航中,模型需要结合视觉和空间信息规划路径;在教育领域,可用于开发能够解决复杂几何问题的智能辅导系统;在游戏设计领域,MARBLE的任务设计理念可应用于开发更具挑战性的AI测试环境。这些应用场景均要求模型具备强大的多模态信息处理和推理能力。
衍生相关工作
MARBLE数据集的推出催生了一系列相关研究工作。在模型架构方面,研究者们开始探索专门针对多模态推理的神经网络设计;在训练方法上,出现了基于MARBLE的课程学习策略,逐步提升模型推理能力;在评估框架方面,衍生出了更多关注推理过程而非最终结果的评测方法。这些工作共同推动了多模态推理领域的快速发展,并为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



