ESI-Bench

github2026-05-20 更新2026-05-21 收录

下载链接：

https://github.com/ESI-Bench/ESI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ESI-Bench是一个面向具身空间智能的综合性基准测试，基于OmniGibson构建，涵盖10个任务类别和29个子类别，旨在通过感知-行动循环来评估智能体在主动探索和推理方面的能力。

创建时间：

2026-04-28

原始信息汇总

ESI-Bench: 面向具身空间智能的基准数据集

概述

ESI-Bench 是一个用于评估和推动具身空间智能发展的综合基准数据集。其核心思想是，空间智能通过“感知-行动循环”展开：智能体通过行动获取观测，并推理观测如何随行动变化。与被动处理“已见”信息不同，智能体需要主动发现“未见”信息——包括遮挡结构、动态、包含关系和功能性等无法通过被动感知解决的问题。

该基准基于 OmniGibson 仿真平台构建，并根植于 Spelke 的核心知识系统。数据集涵盖 10 大任务类别和 29 个子类别。

主要发现

主动探索显著优于被动方法，智能体能够在无明确指令下自发发现涌现的空间策略。
被动多视图引入噪声而非信号，尽管消耗了更多图像。
大多数失败源于“行动盲点”：糟糕的行动选择导致糟糕的观测，从而引发级联错误。
显式 3D 空间理解在深度敏感任务上稳定了推理，但不完美的 3D 重建反而比 2D 基线更差。
模型存在元认知差距：与人类寻求证伪视角并根据矛盾修正信念不同，模型无论证据质量如何都会过早地做出高置信度判断。

数据集内容与结构

任务类别

ESI-Bench 的数据集 JSON 文件位于 dataset/json_clean/ 目录下，按以下 10 大任务类别组织：

任务类别	说明
Action Sequencing	动作排序
Cognitive Mapping	认知地图
Enumerative Perception	枚举感知
Metric Comparison	度量比较
Perceptual Grounding	感知基础
Physical Dynamics	物理动力学
Physical Structure	物理结构
Spatial Relations	空间关系
Specular Reflection	镜面反射
Temporal Understanding	时间理解

子任务模块

用于主动探索的具体子任务名称（对应 src/active_explore/tasks/ 下的模块）包括：

action, angle_confusion, cognitivemap, counting, deformable, distance, line, mirror, multiagent, occlusion, pour, size, slope, stacking, storage, touching, transparent, triangle, unobserved_changes

数据集生成脚本

数据集构建脚本位于 src/dataset_generation/ 目录下，按任务文件夹组织：

文件夹	包含脚本
`task_action_sequencing`	`batch_action`
`task_capacity`	`batch_pour`, `batch_storage`, `batch_storage_multi`, `batch_water`
`task_cognitive_map`	`batch_cognitivemap_connect`, `batch_cognitivemap_merge`, `batch_cognitivemap_plan`, `batch_cognitivemap_region`
`task_comparison`	`batch_distance`, `batch_size`, `batch_size_robot`
`task_confusing_relation`	`batch_equilateral`, `batch_isosceles`, `batch_randomtriangle`, `batch_line`, `batch_line_positive`, `batch_touching`, `batch_touching_false`, `batch_touching_real`
`task_counting`	`batch_counting_merge`
`task_deformable`	`batch_deformable`
`task_hallucination`	`batch_angle_confusion`, `batch_angle_confusion_yining`, `batch_dependency`, `batch_occlusion`, `batch_occlusion_yining`, `batch_transparent`, `batch_transparent_false`
`task_mirror`	`batch_mirror_correspondence`, `batch_mirror_distance`, `batch_mirror_merge`, `batch_mirror_object_reality`
`task_multi_agent`	`batch_multi_agent`
`task_physics`	`batch_slope`, `batch_stack`
`task_unobserved_changes`	`batch_unobserved_changes`

许可证

该项目采用 MIT 许可证。详见仓库中的 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

ESI-Bench基于OmniGibson仿真平台构建，依托Spelke核心知识体系，设计了跨越10大任务类别和29个子类别的具身空间智能评测体系。数据集生成脚本存放在src/dataset_generation/目录下，每个任务文件夹包含独立的Python脚本与bash运行器。构建时需激活behavior conda环境，通过执行各任务对应的bash脚本（如batch_occlusion_yining.sh、batch_slope.sh）来生成数据，关键API密钥需提前配置。生成过程涵盖了动作序列、认知映射、枚举感知、度量比较、感知接地、物理动力学、物理结构、空间关系、镜面反射和时间理解等维度，确保任务覆盖全面且具备可复现性。

特点

ESI-Bench的核心特质在于将空间智能从被动感知重塑为主动探索的感知-行动闭环。相比传统依赖完美观测的基准，该数据集要求智能体自主决策并整合感知、移动与操作能力，通过主动累积任务证据来揭示遮挡、动态、包含关系及功能性等隐性信息。实验发现主动探索显著优于被动观测，而过多的被动多视角反而引入噪声。模型在行动选择上的盲目性导致了观测质量下降和级联错误，且存在元认知鸿沟，即模型在面对矛盾证据时缺乏人类修正信念的能力，容易过早做出高置信度判断。

使用方法

使用者需先配置OmniGibson场景并激活behavior环境，通过设置API密钥选择GPT或Gemini等模型。运行src/active_explore/main.py时，通过--task指定任务类型（如counting、cognitivemap），--metadata指向JSON问题文件路径，并配合--max-steps等参数控制探索步数与置信度阈值。支持单问题JSON或包含多个路径的摘要JSON两种输入方式，结果输出为answer.json及每步的step_*.png图像。数据集生成则执行对应bash脚本，可按需从29个子类别中选取任务进行数据构建与评测。

背景与挑战

背景概述

空间智能的本质在于感知与行动的闭环耦合，智能体通过主动探索环境来获取观测信息，并依据行动导致的观测变化进行推理，从而揭示被遮挡的结构、动态特性及物体功能等隐藏信息。然而，现有空间智能基准多基于预知观测的假设，难以衡量智能体在动态环境中主动获取与整合信息的能力。为此，斯坦福大学、加州大学洛杉矶分校与西北大学的研究团队于2026年共同提出了ESI-Bench基准，涵盖10大任务类别与29个子类别，基于OmniGibson仿真平台构建，并根植于Spelke核心知识系统。该基准旨在评估智能体在感知、移动与操作等多模态能力上的主动探索策略，揭示其空间推理的局限性与进化潜力。

当前挑战

ESI-Bench面临的核心挑战在于解决“感知-行动”闭环中的多层级难题。首先，智能体需要在未知环境中自主决策行动序列，以最大化信息获取效率，但被动多视角观测往往引入噪声而非有效信号，导致推理精度下降。其次，多数失败源于行动盲区——不当的动作选择引发低质观测，进而驱动级联错误，尤其在深度敏感任务中，显式3D空间锚定本应稳定推理，却不完美的重建比2D基线更具破坏性。此外，数据集构建面临模拟场景的物理真实性与任务多样性平衡，如生成符合物理规律的堆叠与倾倒事件，以及确保镜像、透明物体等特殊材料感知的可靠性，均对数据生成脚本与仿真引擎的稳定性提出严苛要求。

常用场景

经典使用场景

在具身智能与空间感知领域，ESI-Bench被广泛应用于评估和训练智能体在复杂三维环境中通过主动探索来完成空间理解任务。该基准涵盖动作序列规划、认知地图构建、枚举感知、度量比较、物理动力学推测等十大任务类别，共二十九个子类别。研究者通常将智能体置于OmniGibson仿真环境中，要求其通过移动、操作、观察等行为主动累积证据以回答空间推理问题，从而检验其在感知-行动闭环中的综合空间智能水平。

衍生相关工作

ESI-Bench的诞生催生了一系列关于主动探索策略与空间推理机制的前沿工作。围绕该基准，研究者开发了面向具体任务的主动探索模块，如在认知地图合并、物理动力学推理、透明物体感知等子任务上涌现的探索路径规划方法。这些衍生工作不仅验证了主动探索带来涌现式空间策略的发现，还推动了3D显式表征在深度敏感任务中的应用探索。此外，基准中揭示的元认知差距促使后续研究关注智能体的信念更新机制与视角否定能力，从而拓展了具身智能中感知-行动闭环的理论框架。

数据集最近研究