Ego3D-Bench

github2025-09-11 更新2025-09-13 收录

下载链接：

https://github.com/vbdi/Ego3D-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Ego3D-Bench是一个包含8,600多个人工验证问答对的基准数据集，专门设计用于评估视觉语言模型在自我中心多视角户外环境中的空间理解能力。图像数据来自NuScenes、Argoverse和Waymo三个不同数据集，问题设计需要跨视角推理，包含自我中心和对象中心两种视角的问题类型，总计10种问题类型：8个多项选择问答和2个精确数字问答。

Ego3D-Bench is a benchmark dataset containing over 8,600 manually verified question-answer pairs, specifically designed to assess the spatial comprehension abilities of vision-language models within egocentric multi-view outdoor settings. The image data is collected from three independent datasets: NuScenes, Argoverse, and Waymo. The questions are engineered to demand cross-view reasoning, encompassing two perspective-based question categories: egocentric and object-centric, with a total of 10 question types, including 8 multiple-choice question-answer pairs and 2 exact numerical question-answer pairs.

创建时间：

2025-08-26

原始信息汇总

Ego3D-Bench 数据集概述

数据集简介

Ego3D-Bench 是一个用于评估视觉-语言模型（VLMs）在自我中心多视角户外环境中空间理解能力的基准数据集。该数据集包含超过 8,600 条人工验证的问答对，旨在推动 VLMs 在真实世界场景中实现人类水平的 3D 空间理解。

数据来源

图像数据采集自三个公开数据集：NuScenes、Argoverse 和 Waymo。
问题设计强调跨视角推理能力。

问题类型

问题分为自我中心视角和物体中心视角两类。
总计包含 10 种问题类型：
- 8 种多项选择问答
- 2 种精确数值问答

关联框架

Ego3D-VLM 是一个后训练框架，通过基于全局 3D 坐标生成认知地图来增强 VLMs 的 3D 空间推理能力。该框架在多项选择问答上平均提升 12% 的准确率，在绝对距离估计上平均提升 56% 的准确率。

性能影响

Ego3D-Bench 与 Ego3D-VLM 共同推动 VLMs 在真实世界环境中实现更接近人类水平的 3D 空间理解能力。

搜集汇总

数据集介绍

构建方式

在自动驾驶与机器人导航领域，Ego3D-Bench数据集通过整合NuScenes、Argoverse和Waymo三大权威数据源的多视角视觉信息，构建了涵盖8600余条人工验证问答对的评测基准。数据采集过程严格遵循以自我中心及物体中心的双重视角，确保问题设计需依赖跨视图推理能力，涵盖8类多选问答与2类精确数值问答，全面模拟真实环境中的空间认知挑战。

使用方法

研究者可通过Hugging Face平台直接加载数据集，利用其多选问答与数值估计任务评估视觉语言模型的空间推理性能。基准测试需结合跨视图图像序列与对应坐标信息，通过解析自我中心或物体中心的问题类型，定量分析模型在三维空间理解、距离估算及场景构建等方面的能力表现。

背景与挑战

背景概述

随着视觉语言模型在二维视觉任务中取得显著进展，其在三维空间理解能力上的局限逐渐凸显。Ego3D-Bench由研究团队于2025年提出，旨在构建一个专注于自我中心多视角户外场景的评估基准。该数据集整合了NuScenes、Argoverse和Waymo三大自动驾驶数据集的多视角图像，包含超过8600组人工验证的问答对，核心研究问题聚焦于模型在复杂三维环境中的空间推理与跨视角认知能力。这一基准推动了视觉语言模型从二维感知向三维空间智能的跨越，为具身智能和自动驾驶系统的发展提供了关键评估工具。

当前挑战

构建过程中需解决多源异构数据的时空对齐问题，以及自我中心与物体中心双视角问题设计的逻辑一致性挑战。在领域层面，该数据集针对视觉语言模型在三维空间推理中的三大核心挑战：跨视角关系推理的连续性保持、绝对距离估计的精度缺失，以及自我中心与全局空间坐标的转换能力。这些挑战揭示了当前模型在真实三维场景理解中与人类认知水平的本质差距。

常用场景

经典使用场景

在自动驾驶与增强现实领域，Ego3D-Bench数据集通过8600余条人工验证的问答对，为视觉语言模型提供了以自我为中心的多视角户外环境评估框架。该数据集整合了NuScenes、Argoverse和Waymo三大权威数据源的图像资源，构建了涵盖跨视角推理任务的测试环境，其中问题设计既包含以自我为中心的视角，也涉及场景中物体的客观视角，全面模拟真实世界中的空间认知需求。

解决学术问题

该数据集有效解决了视觉语言模型在三维空间理解方面的核心学术问题，特别是针对自我中心视角下的跨视图推理与空间关系建模。通过提供精确的全局三维坐标标注和多视角图像序列，它使研究者能够量化模型在距离估计、视角转换和空间关系推理等方面的性能缺陷，为提升模型的空间认知能力提供了可衡量的基准。

实际应用

在实际应用中，Ego3D-Bench支撑了自动驾驶系统中环境感知与决策算法的开发，通过模拟人类驾驶员的空间判断过程，提升车辆对复杂道路场景的理解能力。同时，该数据集也为机器人导航、增强现实交互等需要实时空间推理的技术领域提供了关键训练与验证资源，推动智能系统在真实环境中的适应性进化。

数据集最近研究