MultihopSpatial
收藏arXiv2026-03-19 更新2026-03-21 收录
下载链接:
https://youngwanlee.github.io/multihopspatial
下载链接
链接失效反馈官方服务:
资源简介:
MultihopSpatial是由韩国电子通信研究院等机构联合构建的多跳组合空间推理基准数据集,包含4,500个手工标注的视觉问答对,覆盖1-3跳复杂查询。数据源自COCO和PACO-Ego4D的3,563张空间复杂图像,通过严格的三轮人工验证确保质量。该数据集通过属性、位置和关系三个基础类别的组合,评估视觉语言模型在真实场景中的空间推理与视觉定位能力,特别适用于具身智能代理的开发和评估。
MultihopSpatial is a multi-hop compositional spatial reasoning benchmark dataset jointly constructed by the Korea Electronics and Telecommunications Research Institute and other institutions. It contains 4,500 manually annotated visual question-answer pairs, covering 1-to-3-hop complex queries. The dataset is sourced from 3,563 spatially complex images from COCO and PACO-Ego4D, with its quality ensured through a strict three-round manual validation process. By integrating three fundamental categories: attributes, spatial locations, and inter-object relationships, it evaluates the spatial reasoning and visual grounding capabilities of vision-language models in real-world scenarios, and is particularly suitable for the development and evaluation of embodied AI agents.
提供机构:
韩国电子通信研究院; 韩国科学技术院; 成均馆大学; DeepAuto
创建时间:
2026-03-19
原始信息汇总
MultihopSpatial 数据集概述
数据集基本信息
- 数据集名称:MultihopSpatial
- 核心目标:评估视觉语言模型在多跳组合空间推理与视觉定位方面的能力
- 基准规模:4,500 个手动标注的视觉问答对
- 训练集:MultihopSpatial-Train(6,791 个样本)
- 图像来源:3,563 张来自 COCO 和 PACO-Ego4D 的精选图像,涵盖室内/室外场景及自我中心/他者中心视角
- 标注质量:十名训练有素的人类专家标注,三轮独立交叉检查,评分者间信度(Krippendorffs α)为 0.90
核心特性
- 多跳组合推理:包含 1 至 3 跳的组合空间查询,模拟现实世界中对具身智能体的复杂指令
- 空间推理类别:基于属性(att)、位置(pos)和关系(rel)三个基本类别进行组合
- 1-Hop:针对单一空间类别(pos 或 rel)的单步问题
- 2-Hop:组合两个类别(att+pos、att+rel 或 pos+rel)的问题
- 3-Hop:组合所有三个类别(att+pos+rel)的问题,模拟人类在杂乱场景中指代对象的方式
- 视角平衡:每个推理跳数均完美平衡自我中心(ego-centric)和他者中心(exo-centric)视角(各 750 个样本)
- 接地评估:提供真实边界框,用于联合评估推理和空间定位能力
评估指标
- MCQ 准确率:多项选择预测正确的百分比(标准指标,不验证空间定位)
- Acc@50IoU:主要接地指标。要求答案正确 且 预测边界框与真实框的交并比 ≥ 0.5
- 平均 IoU:仅在 MCQ 正确的样本上计算,隔离接地能力与推理错误
主要评估结果(基于 37 个 VLM 的评估)
- 整体表现:Gemini-3-Pro 在 MCQ 准确率(64.7%)和 Acc@50IoU(40.6%)上最高;Qwen3-VL-32B-Thinking 在开源模型中领先。答案选择的高性能并不保证精确定位。
- 指标依赖性排名:Claude-Opus-4.5 从 MCQ 第 7 名降至 Acc@50IoU 第 29 名;而较小的 Qwen3-VL-4B 因稳健的接地能力从第 25 名升至第 10 名,证明仅凭 MCQ 具有误导性。
- 基准难度:最佳模型的 Acc@50IoU 峰值仅为 40.6%。在 3 跳自我中心条件下,37 个模型中仅 3 个超过 25% 的随机 MCQ 基线。GPT-5.2-Thinking 仅 8.5%,Claude-Sonnet-4.5-Thinking 仅 1.9%。
关键洞察
- 跨推理跳数的性能退化:随着跳数增加,所有模型的性能一致下降,组合空间推理仍是根本挑战。自我中心评估下的退化加剧。
- 自我中心 vs. 他者中心视角:自我中心评估作为评估盲点,压制了即使是强接地模型的能力,掩盖了 MCQ 评估中不可见的能力差异。
- 即时模型 vs. 推理模型:推理模型优势在多跳压力下减弱。即使有扩展思考,在 3 跳自我中心任务上性能也骤降至低水平。
- 开源模型 vs. 专有模型:开源模型在 Acc@50IoU 上持续占优,源于更一致的视觉接地能力。
- 通用模型 vs. 专用模型:专用空间推理模型在所有指标和跳数上均表现不佳,表明其未能泛化到多跳场景。
- 接地差距:平均 59% 的正确回答问题缺乏适当的空间定位。专有即时模型的未接地准确率高达 93%。
- LLM 缩放限制:仅缩放语言主干收益有限。多跳空间推理关键依赖于视觉空间表示能力的缩放。
- 错误分析:多标签组合(如位置-关系)是关键瓶颈,真正的组合空间推理仍是未解决的挑战。
数据集地址
https://youngwanlee.github.io/multihopspatial
搜集汇总
数据集介绍

构建方式
在空间推理领域,现有基准多聚焦于单步关系,难以评估模型在复杂现实场景中的多跳组合推理能力。MultihopSpatial的构建旨在填补这一空白,其数据来源于COCO和PACO-Ego4D中的3,563幅空间复杂图像,覆盖了室内外日常场景及自我中心与他者中心视角。为确保数据的高质量与可靠性,所有4,500个问答对及其边界框标注均由十位训练有素的人类专家手动完成,并经过三轮独立交叉验证,最终达成了高达0.90的Krippendorff's α评分,有效消除了AI生成数据中常见的幻觉与噪声问题。
特点
该数据集的核心特点在于其精心设计的组合式多跳推理结构。它将空间推理分解为属性、位置与关系三个基本范畴,并系统性地组合成1至3跳的复杂查询,模拟了现实世界中智能体进行多步推理与精确视觉定位的需求。尤为突出的是,数据集引入了Acc@50IoU这一创新评估指标,要求模型在给出正确答案的同时,其预测的边界框与真实标注的重叠度必须达到50%以上,从而将推理能力与视觉接地能力紧密结合,有效揭示了传统多项选择题评估所掩盖的空间盲区。
使用方法
MultihopSpatial数据集主要服务于视觉语言模型在组合空间推理与视觉接地能力上的评估与增强。研究者可利用其提供的4,500个测试样本,在涵盖不同跳数复杂度与视角的设定下,全面评测模型的性能。评估时,需同时计算标准的多项选择准确率与Acc@50IoU指标,以区分模型是真正理解了空间关系还是仅依赖语言捷径。此外,数据集附带的6,791个样本的训练集(MultihopSpatial-Train)可作为强化学习等后训练方法的优质语料,已有研究表明,基于此语料的训练不仅能提升模型内在的空间推理能力,还能有效迁移至下游的具身操作任务,改善机器人策略的执行效果。
背景与挑战
背景概述
随着物理人工智能领域的快速发展,具身智能体特别是视觉-语言-动作模型日益成为研究焦点,其核心依赖于视觉-语言模型的空间推理能力以实现与现实世界的精准交互。然而,现有基准数据集大多局限于评估单一空间关系的简单查询,未能充分反映真实场景中所需的多跳组合推理与精确视觉定位能力。为填补这一空白,韩国电子通信研究院与韩国科学技术院等机构的研究团队于2026年共同推出了MultihopSpatial数据集。该数据集旨在系统评估视觉-语言模型在多跳组合空间推理与视觉定位方面的综合性能,通过包含4500个涵盖1至3跳复杂度的问答对,并引入兼顾答案选择与边界框预测的Acc@50IoU评估指标,显著推动了具身智能领域向更复杂、更贴近实际应用的方向发展。
当前挑战
MultihopSpatial数据集致力于解决视觉-语言模型在复杂空间推理任务中的核心挑战,其首要难题在于如何准确评估模型在多跳组合查询下的推理能力,例如同时处理属性、位置与关系等多重约束的复合问题。现有模型在单一跳数任务上表现尚可,但随着推理链的延长,性能呈现显著下降,尤其在以自我为中心的视角下,模型需进行视角转换,进一步加剧了推理难度。数据构建过程中同样面临严峻挑战,为确保数据质量与可靠性,研究团队摒弃了人工智能生成内容,转而依靠十名训练有素的人工标注员进行严格的手工标注与三轮独立交叉验证,以消除幻觉与歧义,这一过程虽保证了数据的高一致性与可信度,却也带来了高昂的时间与人力成本。
常用场景
经典使用场景
在视觉语言模型领域,空间推理能力是评估模型智能水平的核心维度之一。MultihopSpatial数据集通过设计1至3跳的复合空间查询,模拟了真实世界中智能体需进行的多步推理过程。例如,模型需要从特定视角出发,结合物体属性、位置关系和空间比较,逐步筛选并定位目标对象。这一经典使用场景不仅检验了模型对单跳基础关系的理解,更强调了其在复杂组合逻辑下的推理连贯性与准确性,为视觉语言模型在动态环境中的适用性提供了关键测试基准。
实际应用
在机器人操作、自动驾驶等具身智能场景中,智能体必须准确理解多步空间指令并精确定位目标对象。MultihopSpatial通过涵盖自我中心与第三人称视角的复合查询,直接模拟了这些实际任务需求。例如,在家庭服务机器人执行“请移走我右侧最远的圆形杯子”这类指令时,模型需进行视角转换、属性过滤与关系比较等多步推理。数据集的训练语料经强化学习微调后,能显著提升下游视觉语言动作模型在CALVIN等机器人操作基准上的成功率,体现了其从评估工具向能力增强资源的实用价值转化。
衍生相关工作
MultihopSpatial的推出激发了系列围绕多跳空间推理的研究工作。基于其评估框架,后续研究开始探索更复杂的时空组合推理、跨模态对齐优化以及大规模视觉编码器对空间表征能力的影响。例如,研究团队利用该数据集的训练语料进行强化学习后训练,显著提升了基础模型在BLINK、3DSRBench等多个外部基准上的泛化性能。同时,其提出的Acc@50IoU指标被广泛采纳为视觉接地能力的新标准,推动了视觉语言动作模型在真实世界交互任务中的评估方法革新。
以上内容由遇见数据集搜集并总结生成



