ESPIRE

Name: ESPIRE
Creator: 通用人工智能国家重点实验室·BIGAI
Published: 2026-03-13 22:43:00
License: 暂无描述

arXiv2026-03-13 更新2026-03-17 收录

下载链接：

https://spatigen.github.io/espire.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ESPIRE是由通用人工智能国家重点实验室团队开发的具身空间推理诊断基准，包含148种空间推理任务类型。该数据集基于Isaac Sim物理仿真平台构建，覆盖了属性、关系、距离和方向等空间推理要素，支持6自由度物体重排任务。数据通过程序化生成方式构建，采用功能程序表示任务指令并与3D场景图结合生成真值目标，主要应用于评估视觉语言模型在机器人导航、操作等具身任务中的空间认知能力。

ESPIRE is an embodied spatial reasoning diagnostic benchmark developed by the team from the State Key Laboratory of General Artificial Intelligence, encompassing 148 types of spatial reasoning tasks. Built on the Isaac Sim physics simulation platform, this dataset covers core spatial reasoning elements including properties, relations, distances and directions, and supports 6-degree-of-freedom (6-DoF) object rearrangement tasks. The dataset is constructed through procedural generation: functional programs are used to represent task instructions and integrated with 3D scene graphs to generate ground-truth targets. Its primary application is to evaluate the spatial cognitive capabilities of vision-language models in embodied tasks such as robot navigation and manipulation.

提供机构：

通用人工智能国家重点实验室·BIGAI

创建时间：

2026-03-13

原始信息汇总

ESPIRE 数据集概述

数据集简介

ESPIRE 是一个用于视觉语言模型具身空间推理的诊断性基准。它包含一个用于“拾取”任务的桌面场景和一个用于“放置”任务的货架场景，均设置在一个模拟的书房环境中。

核心特点

诊断隔离：将“定位”与“执行”分离，以使视觉语言模型适应机器人任务，并精确定位特定的空间推理失败点。
生成式推理：从判别性的视觉问答转向生成式评估；模型必须输出可行的 SE(3) 目标位姿。
丰富的任务类型：涵盖 148 种空间推理类型，包括关系、距离、属性（如尺寸）和方向，并具有不同的粒度。

空间维度与粒度

数据集在四个空间维度上支持从粗粒度到细粒度的推理：

方向：包含 615 个任务。
关系：包含 750 个任务。
距离：包含 705 个任务。
属性：包含 150 个任务。

场景与指令生成

通过程序化生成方法，系统性地创建了具有不同杂乱程度的环境和指令。支持 148 种任务类型、65 种指令家族、“拾取”与“放置”任务以及 3 种难度级别，以实现对具身空间推理的全面评估。

执行行为定性分析

中间执行状态被分为六种类型：

抓取有利视角
抓取不可行视角
机械臂遮挡
物体遮挡
无法识别的目标
物理上可实现的执行

引用信息

标题：ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models
作者：Yanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng
年份：2026
arXiv：https://arxiv.org/abs/2603.13033
归档：arXiv:2603.13033 [cs.CV]

相关链接

GitHub：https://github.com/spatigen/espire.io
论文：https://arxiv.org/abs/2603.13033
基准平台：https://spatigen.github.io/espire.io/

搜集汇总

数据集介绍

构建方式

在具身人工智能领域，评估视觉语言模型的空间推理能力一直面临静态范式与覆盖范围有限的挑战。ESPIRE基准通过构建一个模拟物理世界来应对这一挑战，其核心在于系统化的任务设计。该数据集基于Isaac Sim仿真平台，创建了桌面和货架两种任务场景，并采用层次化设计理念，将空间推理分解为空间方面、参考对象和参考框架三个关键因素。通过定义任务规范C=(S, F, O)，研究者精心策划了148种空间推理任务类型，涵盖65个指令家族。每个任务指令被表示为功能程序，可在环境状态的3D场景图表示上执行，从而生成真实的目标答案。这种设计确保了任务在空间维度上的广泛覆盖，并支持可扩展的机器人任务生成。

特点

ESPIRE数据集的核心特征在于其诊断性与系统性。该基准首次在模拟物理环境中实现了对视觉语言模型空间认知的细粒度评估，将机器人任务分解为定位与执行两个生成式阶段，统一了被动空间理解与面向行动的空间推理。数据集通过系统化的任务设计，支持对模型在不同空间方面和粒度上的表现进行深入分析，例如从粗略关系到精细方向，从相对距离到精确度量。此外，ESPIRE提供了物理接地的逼真环境，并采用了减少仿真与现实视觉差距的策略，如使用带真实纹理的3D资产及随机化光照与相机位姿，从而增强了环境的多样性与真实性。其高任务复杂度与可扩展性，为模型迭代开发提供了可靠且高效的评估平台。

使用方法

ESPIRE数据集的使用旨在诊断和评估视觉语言模型在具身空间推理任务中的性能。评估流程通常分为定位与执行两个阶段：在定位阶段，模型根据给定的自然语言指令和场景图像，生成目标物体或空间的2D坐标点；在执行阶段，模型需预测机器人末端执行器的6自由度目标位姿，包括位置和朝向。评估支持非反思与反思两种设置，反思设置允许模型接收先前失败尝试的反馈以改进后续预测。研究者可通过提供的功能程序接口，在多样化的模拟场景中实例化任务，并利用运动规划器验证预测位姿的物理可实现性。该基准支持对模型在不同难度级别、空间方面及参考框架下的表现进行定量与定性分析，从而揭示模型空间推理能力的关键瓶颈与发展方向。

背景与挑战

背景概述

在具身人工智能领域，空间认知是智能体理解并与三维物理世界交互的关键能力。由北京通用人工智能研究院（BIGAI）的赵彦鹏、丁文涛、李鸿涛等研究人员于2026年提出的ESPIRE数据集，旨在系统评估视觉-语言模型在具身环境中的空间推理能力。该数据集构建于Isaac Sim物理仿真平台之上，通过模拟桌面与货架场景，将机器人任务分解为定位与执行两个生成式阶段，从而弥合了传统静态评估与真实世界部署之间的鸿沟。ESPIRE的核心研究问题聚焦于诊断VLMs在三维几何理解、空间关系推理以及面向行动的空间规划等方面的内在能力，其系统化的任务设计覆盖了属性、距离、关系和方向四大空间维度，为推进VLMs的空间智能提供了重要的基准与分析工具。

当前挑战

ESPIRE数据集旨在解决的领域挑战，是当前视觉-语言模型在具身空间推理中存在的显著缺陷。现有评估多依赖于静态的视觉问答范式，缺乏对模型主动执行三维动作能力的考察，且易受语言偏见干扰。ESPIRE通过生成式的定位与执行统一评估，直面模型在三维旋转几何理解、精确距离估计以及复杂空间关系（如内在参考系与相对参考系的辨析）推理上的根本性困难。在构建过程中，挑战主要体现在系统化任务设计上：需在仿真环境中物理接地地定义涵盖不同空间方面（如方位、距离）与粒度（如相对与精确）的148种推理类型，同时确保指令的语义明确性以减少歧义，并需通过随机化场景布局、光照与纹理来增强多样性，以降低仿真与现实之间的视觉差距，保证评估的可靠性与可扩展性。

常用场景

经典使用场景

在具身人工智能领域，ESPIRE数据集被广泛应用于评估视觉语言模型在物理仿真环境中的空间推理能力。该数据集通过模拟真实世界的桌面和货架场景，构建了包含拾取与放置任务的机器人操作序列，要求模型根据自然语言指令在三维空间中定位目标并生成执行姿态。这一经典使用场景不仅检验了模型对空间属性、关系、距离和方向等要素的理解，还强调了从被动感知到主动行动的过渡，为具身智能体的开发提供了关键测试平台。

实际应用

在实际应用中，ESPIRE数据集为机器人导航与操作系统的开发提供了可靠的仿真测试环境。通过物理接地的逼真模拟，该数据集能够评估视觉语言模型在家庭服务、仓储管理等场景下的空间推理与决策能力，例如根据指令在杂乱桌面上定位特定书籍，或将物体精确放置到货架指定位置。这种仿真评估降低了硬件依赖与实验成本，支持快速迭代的模型优化，并为将视觉语言模型集成到自主机器人系统中提供了关键的性能验证手段。

衍生相关工作

ESPIRE数据集推动了多项相关研究工作的进展，尤其是在空间增强型视觉语言模型的开发与评估方面。基于其生成式评估范式，后续研究扩展了对于长时域空间推理、多步操作序列的考察，并促进了视觉语言动作模型的发展。同时，该数据集的系统化任务设计启发了对模型在三维旋转几何、参考帧理解等专项能力的深入分析，为RoboBrain2.0、SpatialVQA等空间推理模型的优化提供了诊断依据，进一步丰富了具身人工智能领域的基准体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集