WikiEarth
收藏arXiv2026-03-28 更新2026-03-31 收录
下载链接:
https://tau-vailab.github.io/SceneGround/
下载链接
链接失效反馈官方服务:
资源简介:
WikiEarth是由特拉维夫大学和康奈尔大学联合构建的跨域3D对齐基准数据集,包含30组从WikiScenes提取的真实世界局部3D重建与基于Google Earth Studio渲染的伪合成参考模型配对。数据集通过稠密地理空间准确的渲染视图提供完整场景覆盖,每个参考模型采用3D高斯泼溅表示并增强语义特征,旨在解决大尺度地标场景中因视觉重叠不足导致的碎片化重建对齐难题。该数据集支持计算机视觉领域对非重叠图像集合的全局一致性3D重建算法的评估与优化。
WikiEarth is a cross-domain 3D alignment benchmark dataset jointly constructed by Tel Aviv University and Cornell University. It contains 30 pairs of real-world partial 3D reconstructions extracted from WikiScenes and pseudo-synthetic reference models rendered using Google Earth Studio. The dataset provides complete scene coverage via dense, geospatially accurate rendered views, with each reference model represented by 3D Gaussian Splatting and augmented with semantic features. It aims to address the fragmented reconstruction alignment problem caused by insufficient visual overlap in large-scale landmark scenes. This dataset supports the evaluation and optimization of global consistent 3D reconstruction algorithms for non-overlapping image collections in the field of computer vision.
提供机构:
特拉维夫大学; 康奈尔大学
创建时间:
2026-03-28
原始信息汇总
Scene Grounding in The Wild 数据集概述
数据集名称
WikiEarth Benchmark
数据集来源
- 基于WikiScenes数据集的增强3D重建(meta-images)。
- 结合了来自Google Earth Studio的伪合成渲染。
数据集规模与构成
- 包含来自23个不同场景的33个部分重建(meta images)。
- 每个部分重建由一组互联网图像(来自WikiScenes)构成。
- 为每个场景提供了完整的3D参考模型,该模型由Google Earth Studio的伪合成渲染构建,并使用3D高斯泼溅(3D Gaussian Splatting)表示。
数据集目的与用途
- 用于评估将部分、不连接的3D重建与完整3D参考模型进行全局一致对齐的技术。
- 旨在解决从无重叠或重叠很少的非结构化、野外图像中重建大规模真实场景3D模型的挑战。
- 支持研究在缺乏视觉重叠的情况下,通过语义特征进行基于优化的对齐方法。
数据集关键特征
- 参考模型:密集、地理空间准确的伪合成渲染,提供完整的场景覆盖,但与真实世界照片在外观上存在显著差异。
- 对齐基础:参考模型和真实图像共享相同的底层场景语义,这是实现跨域对齐的关键。
- 提供信息:数据集注册了现有的部分3D重建与伪合成参考模型之间的对应关系。
基准评估指标
在WikiEarth基准测试中,使用以下指标评估对齐性能:
- 平均旋转误差(ΔR)
- 平均平移误差(ΔT)
- Meta-image Transformation Accuracy (MTA)
- 对齐异常值百分比(O%)
相关方法
数据集的构建用于支持论文提出的框架,该框架核心包括:
- 一种逆向的、基于特征的优化方案,用于估计全局6自由度姿态和尺度。
- 保持参考模型固定,通过优化语义特征损失来更新初始变换。
可视化示例
数据集中包含多个地标场景的部分重建与参考模型对齐的可视化结果,例如:
- Wells Cathedral
- Brussels Cathedral
- Freiburg Cathedral
- Bordeaux Cathedral
- Metz Cathedral
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,大规模场景的三维重建常因输入图像间缺乏重叠区域而面临挑战,导致产生多个不连贯的局部重建结果。WikiEarth数据集的构建旨在解决这一问题,通过将来自互联网的真实世界局部三维重建与完整的伪合成参考模型进行对齐。该数据集以WikiScenes中的现有三维重建为基础,利用Google Earth Studio渲染的密集、地理空间精确的伪合成图像构建全局参考模型。具体而言,研究团队通过渲染空中和地面级别的相机轨迹,确保对地标场景的全面覆盖,并应用COLMAP流程结合GPS坐标生成参考模型。随后,通过手动调整参数和视觉检查,将WikiScenes中的元图像与参考模型进行精确对齐,仅保留高质量对齐的图像,最终形成包含32个元图像、覆盖23个不同场景的标准化基准数据集。
特点
WikiEarth数据集的核心特点在于其专注于跨域三维对齐的评估,为计算机视觉研究提供了独特的基准。该数据集首次系统性地将真实世界图像集合与伪合成参考模型配对,提供了精确的地面真值对齐,使得不同对齐方法的定量比较成为可能。数据集中每个元图像平均包含97张图像,涵盖了从8到713不等的图像数量,反映了真实世界图像采集的多样性和复杂性。此外,参考模型基于3D高斯泼溅表示,并融入了DINOv2语义特征,使得数据集能够支持基于语义的优化方法。这种设计不仅突出了外观域差距带来的挑战,还促进了针对非重叠、稀疏视图场景的算法开发,为大规模场景重建和全局一致性对齐研究提供了关键资源。
使用方法
WikiEarth数据集主要用于评估和推进三维场景对齐技术,特别是在缺乏视觉重叠的大规模真实世界图像集合中。研究人员可以利用该数据集测试各种跨域对齐方法,包括基于经典结构和运动流程以及学习型模型的初始化策略。数据集提供了元图像与参考模型之间的地面真值变换,允许通过平均旋转误差、平移误差以及元图像变换精度等指标进行定量评估。在使用时,通常首先将局部重建的元图像与参考模型进行初始对齐,随后应用优化算法(如基于语义特征的逆优化方案)来细化全局6自由度加尺度的变换。此外,数据集还可用于验证模型在存在遮挡、外观变化和异常值情况下的鲁棒性,并为训练稀疏重建管道或构建混合三维场景表示提供基础。通过这种方式,WikiEarth支持了场景接地和全局一致性三维重建的前沿研究。
背景与挑战
背景概述
WikiEarth数据集由特拉维夫大学和康奈尔大学的研究团队于2026年提出,旨在解决大规模场景三维重建中的关键难题。该数据集的核心研究问题聚焦于如何将互联网上采集的局部、非重叠三维重建结果与完整的全局参考模型进行精准对齐,以克服传统重建方法在视觉重叠不足时产生的几何断裂或错误融合问题。通过整合来自Google Earth Studio的伪合成渲染图像与真实世界图像数据,WikiEarth为跨域三维对齐技术提供了系统化的评估基准,显著推动了计算机视觉领域在场景理解与几何一致性方面的研究进展。
当前挑战
WikiEarth数据集所解决的领域挑战在于大规模场景三维重建中非重叠图像的对齐与整合,传统方法依赖充分的视觉重叠以建立几何对应,而在实际互联网图像集中常因视角偏差导致重建断裂。构建过程中的挑战包括:跨域对齐的复杂性,即真实世界图像与伪合成渲染图像之间存在显著的外观差异;数据质量的不一致性,如真实图像中的遮挡、光照变化与参考模型的低质量渲染;以及初始对齐的敏感性,需在优化过程中处理异常图像并确保语义特征的有效匹配。
常用场景
经典使用场景
在计算机视觉领域,大规模场景的三维重建常因输入图像视角稀疏或重叠不足而面临挑战。WikiEarth数据集通过将真实世界图像与伪合成参考模型对齐,为这一难题提供了经典解决方案。该数据集常用于评估跨域三维对齐技术,特别是在处理非重叠或部分重叠的互联网图像集合时,能够有效验证算法在全局坐标系下整合多个独立重建片段的能力。其典型应用场景包括对米兰大教堂等标志性建筑进行多视角重建,通过结合Google Earth Studio的渲染图像与WikiScenes的实地照片,实现从碎片化数据到完整三维模型的精准融合。
实际应用
WikiEarth数据集的实际应用涵盖文化遗产数字化、城市三维建模和增强现实导航等领域。例如,在文化遗产保护中,该数据集可用于整合游客拍摄的碎片化建筑照片与卫星渲染模型,生成高精度的大教堂三维数字档案。在城市规划中,它支持将无人机视频帧与现有地理参考模型对齐,实现大规模场景的实时更新与可视化。此外,该技术还可应用于虚拟旅游平台,通过融合多源图像数据构建沉浸式三维环境,为用户提供逼真的远程探索体验。
衍生相关工作
WikiEarth数据集催生了一系列围绕跨域三维对齐和语义特征优化的衍生研究。例如,基于该数据集提出的语义对齐框架启发了后续工作如Feature 3DGS,该方法将二维基础模型的特征蒸馏到三维高斯溅射表示中。同时,数据集被用于评估DUSt3R、MASt3R等前馈三维模型的局限性,推动了针对非重叠场景的改进算法开发。此外,相关工作还探索了将语言嵌入语义特征与三维高斯表示结合,以实现语言引导的大规模场景接地与导航,进一步扩展了数据集在多模态视觉学习中的应用潜力。
以上内容由遇见数据集搜集并总结生成



