E3D-Bench

Name: E3D-Bench
Creator: 德克萨斯大学奥斯汀分校, 布朗大学, 中佛罗里达大学, 英伟达研究院, 斯坦福大学
Published: 2025-06-03 01:53:09
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://e3dbench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

E3D-Bench数据集是一个用于评估端到端3D几何基础模型（GFMs）的基准数据集。该数据集涵盖了五个核心任务：稀疏视图深度估计、基于视频的深度估计、3D重建、多视图姿态估计、新视图合成，并跨越了标准数据和挑战性的数据集。该数据集旨在评估GFMs在真实世界场景中的有效性、鲁棒性和效率，以指导未来模型的扩展和优化。

提供机构：

德克萨斯大学奥斯汀分校, 布朗大学, 中佛罗里达大学, 英伟达研究院, 斯坦福大学

创建时间：

2025-06-03

原始信息汇总

E3D-Bench: 端到端3D几何基础模型基准

数据集概述

目标：评估3D几何基础模型（GFMs）在多样3D任务和场景中的有效性、鲁棒性和效率
核心任务：
- 稀疏视图深度估计
- 视频深度估计
- 3D重建
- 多视角姿态估计
- 新颖视图合成
覆盖范围：标准数据集和分布外挑战数据集

关键评估维度

有效性 (Effectiveness)

多视角3D重建

评估指标：ACC ↓ | Comp ↓ | NC ↑
数据集：DTU, 7-Scenes, NRGBD, ScanNet, TUM-RGBD
表现最佳模型：VGGT (DTU: ACC=1.085, NC=94.305)

多视角相对姿态估计

评估指标：ATE ↓ | RPEtrans ↓ | RPErot ↓
数据集：CO3Dv2, ScanNet & ADT & TUM-Dyn., KITTI Odometry
表现最佳模型：Geo4D (Bonn: AbsRel=0.060, δ<1.25=97.8)

稀疏视图深度估计

评估指标：AbsRel ↓ | δ<1.03 ↑
数据集：DTU, ScanNet, KITTI, ETH3D, T&T
表现最佳模型：VGGT (DTU: AbsRel=1.085)

推理效率 (Inference Efficiency)

评估指标：时间(ms) ↓ | GPU显存(GB) ↓
测试规模：2-256视图
效率最佳模型：Fast3R (2视图: 0.13ms, 4.05GB)

主要发现与结论

任务难度影响：
- 多视角几何推理比双视角更困难
- 直接预测密集3D场景表示比估计单个属性更具挑战性
- 度量尺度深度估计仍是关键挑战
领域泛化能力：
- GFMs在数据稀缺领域泛化能力不足
架构设计启示：
- 无单一最优架构（ViT或扩散模型）
- 强大的2D特征提取器可显著提升3D性能
实时性现状：
- 当前GFMs尚不能满足实时3D应用的效率需求

引用格式

bibtex @article{cong2025e3dbench, title={E3D-Bench: An End-to-End Benchmark for 3D Geometric Foundation Models}, author={Cong, Wenyan and Liang, Yiqing and Zhang, Yancheng and Yang, Ziyi and Wang, Yan and Ivanovic, Boris and Pavone, Marco and Chen, Chen and Wang, Zhangyang and Fan, Zhiwen}, journal={arXiv preprint arXiv:2506.01933}, year={2025} }

搜集汇总

数据集介绍

构建方式

E3D-Bench数据集通过整合多源异构数据构建而成，覆盖了稀疏视图深度估计、视频深度估计、多视图三维重建、相对位姿估计和新视角合成五大核心任务。数据采集过程严格遵循标准化协议，采用真实场景与合成数据相结合的策略，确保数据分布的多样性和挑战性。特别针对极端稀疏视图和动态场景等难点场景，设计了专门的采集方案，并通过Umeyama算法实现预测点云与真实数据的精确对齐。

使用方法

使用本数据集需遵循标准化评估流程：首先通过z坐标投影从预测点图中提取深度信息，对于多视图输入需执行全局对齐处理。评估时建议区分任务场景选择对应子集，稀疏视图任务推荐采用quasi-optimal源视图策略以减少偏差。针对度量尺度模型，可选用原始输出或中值对齐两种模式进行对比分析。数据集提供自动化评估工具链，支持PSNR、SSIM、LPIPS等12种指标的批量计算，并包含GPU内存占用与推理时延的效能分析模块。

背景与挑战

背景概述

E3D-Bench是由德克萨斯大学奥斯汀分校、布朗大学、中佛罗里达大学、NVIDIA Research和斯坦福大学的研究团队于2025年6月推出的首个端到端3D几何基础模型（GFMs）综合基准测试。该数据集旨在评估16种最新的3D GFMs在稀疏视图深度估计、视频深度估计、3D重建、多视角姿态估计和新视角合成等核心任务上的表现。E3D-Bench的出现填补了3D几何基础模型系统化评估的空白，为机器人、增强现实和空间智能等领域的3D感知技术发展提供了重要参考。

当前挑战

E3D-Bench面临的挑战主要包括：1) 领域问题的挑战：当前GFMs在复杂任务（如同时预测几何、姿态和深度）上的表现仍不理想，尤其在稀疏视图和动态场景下的3D重建精度有待提升；2) 构建过程的挑战：数据集的创建需要处理多样化的场景数据（如室内外环境、无人机视角等），确保评估协议的统一性，以及开发自动化工具来处理不同模型输出的标准化比较。此外，如何平衡评估的全面性与计算效率也是构建过程中的重要考量。

常用场景

经典使用场景

E3D-Bench作为首个针对端到端3D几何基础模型（GFMs）的系统性评测基准，其经典使用场景集中在多视角几何推理任务上。在机器人导航、增强现实等实时应用中，该数据集通过标准化评估流程，支持研究者对16种前沿GFMs在稀疏视角深度估计、视频深度估计、多视角3D重建等核心任务上的性能进行横向对比。其独特价值在于覆盖了从静态室内场景到无人机动态拍摄的跨域数据，为模型在开放世界的几何理解能力提供了验证平台。

解决学术问题

该数据集有效解决了3D几何基础模型领域缺乏统一评估标准的关键问题。通过设计涵盖5类核心任务的评测体系（包括稀疏视角深度估计、视频深度估计等），E3D-Bench揭示了GFMs在度量尺度准确性、跨域泛化性方面的瓶颈。例如，研究发现扩散模型在视频深度任务中表现优异，而前馈ViT架构更适合实时多视角重建，这些发现为模型架构选择提供了实证依据，推动了3D空间智能研究的规范化发展。

实际应用

在实际应用层面，E3D-Bench评测的模型技术已逐步渗透至工业界关键领域。在无人机测绘中，VGGT等表现优异的模型能够处理宽基线航空影像的深度估计；在自动驾驶领域，其视频深度评估方案为动态场景理解提供了新范式。值得注意的是，在线注册类模型（如Spann3R）凭借秒级推理速度，正在推动AR设备实时3D感知的技术革新，尽管当前GFMs在256帧处理时仍需要数十秒，距离严格实时需求尚有差距。

数据集最近研究