MegaDepth-X (MD-X)
收藏arXiv2026-04-25 更新2026-04-28 收录
下载链接:
https://megadepth-x.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
MegaDepth-X是由康奈尔大学和哈佛大学联合构建的大规模3D重建数据集,作为MegaDepth的升级版,其规模扩大7倍至1865个场景、44万张图像。该数据集通过互联网照片集合构建,经过严格的动态内容过滤、多视角立体匹配优化以及单目深度引导的深度图修复,最终生成高精度稠密深度信息。其创新性在于采用MASt3R-SfM框架解决视觉相似场景误匹配问题,并引入稀疏感知采样策略模拟长尾分布场景特性,旨在提升3D基础模型在稀疏、噪声图像条件下的重建鲁棒性,特别针对对称场景和重复结构等挑战性场景。
MegaDepth-X is a large-scale 3D reconstruction dataset jointly developed by Cornell University and Harvard University. As an upgraded version of the original MegaDepth dataset, its scale has been expanded 7-fold to 1865 scenes and 440,000 images. Constructed from Internet photo collections, this dataset undergoes rigorous dynamic content filtering, multi-view stereo matching optimization, and monocular depth-guided depth map inpainting, ultimately generating high-precision dense depth information. Its core innovation lies in adopting the MASt3R-SfM framework to resolve mismatching problems in visually similar scenes, and introducing a sparse-aware sampling strategy to simulate the characteristics of long-tail distribution scenarios, aiming to enhance the reconstruction robustness of 3D foundation models under sparse and noisy image conditions, particularly for challenging scenarios such as symmetric scenes and repetitive structures.
提供机构:
康奈尔大学; 哈佛大学·肯普纳研究所
创建时间:
2026-04-25
搜集汇总
数据集介绍

构建方式
互联网照片集在真实场景中呈现极端的长尾分布,即少数地标拥有密集影像而多数场景仅有稀疏、嘈杂且分布不均的照片。针对此问题,MegaDepth-X(MD-X)数据集从MegaScenes中筛选出超过100张已注册图像的候选场景,并通过MASt3R-SfM结合Doppelganger分类器替换原始COLMAP重建以消除歧义。随后,对每个场景进行人工验证,剔除包含动态内容或几何不一致的集合,最终保留1,865个场景共44万张图像。在深度优化方面,采用多视图立体(MVS)管线并引入单目深度引导滤波步骤,利用MoGe2深度预测去除MVS结果中的深度渗色与瞬态物体噪声,从而生成清洁且稠密的深度真值。
使用方法
MD-X主要用于微调现有3D前馈重建模型(如π3与VGGT),以提升其在互联网稀疏、宽基线照片上的鲁棒性。使用时,数据与稀疏感知采样策略结合,通过Louvain社区检测划分视角,再从每社区选取终端节点并以斯坦纳树构建最小连通子图,随后进行贪心视图采样以平衡覆盖性与稀疏性。训练批大小建议在2至24张图像间动态选取,并配合混合密度/稀疏采样(MIXED)以兼顾密集与长尾场景。微调时仅更新交替注意力模块而冻结点云与相机解码器,从而保留预训练几何先验。数据集、微调模型及代码均可在项目网站获取。
背景与挑战
背景概述
MegaDepth-X (MD-X) 数据集由康奈尔大学和哈佛大学 Kempner 研究所的研究人员于2026年提出,旨在解决互联网照片集三维重建中的长尾分布问题。在真实世界场景中,少数著名地标拥有海量高质量影像,而绝大多数地点仅有稀疏、嘈杂且视角不均的照片,导致传统运动恢复结构(SfM)方法及现有前馈式三维模型在此类数据上表现不佳。MD-X 从 MegaScenes 数据集中精心筛选出1865个高质量三维重建场景,包含44万张图像,并通过深度细化与人工验证确保数据干净、稠密,成为首个大规模、高质量的长尾场景三维监督数据集。该数据集显著扩展了 MegaDepth 的规模(7倍),为训练鲁棒的三维基础模型提供了坚实基础,在计算机视觉领域产生了重要影响。
当前挑战
MD-X 数据集面临的挑战主要体现在两个方面。首先,在解决的长尾领域问题上,互联网照片集呈现极端稀疏、视角不均且存在大量歧义性(如对称或重复结构),传统 SfM 与现有前馈模型在此类场景中常因特征匹配困难、缺乏充足共视关系而崩溃,无法恢复一致的几何结构。其次,在数据集构建过程中,从 MegaScenes 中筛选可靠场景极具挑战:需排除动态事件、人群干扰及“分身”问题导致的错误重建;此外,多视角立体深度图存在深度渗色、瞬态物体噪声等伪影,现有细化策略难以完全消除,需引入单目深度引导滤波等新方法进行清洗。最终,609个候选场景因重建质量不合格而被剔除,占比近四分之一,体现了构建高质量长尾三维数据的艰巨性。
常用场景
经典使用场景
MegaDepth-X(MD-X)作为面向互联网照片长尾分布的三维重建数据集,其经典使用场景在于为前馈式三维基础模型提供高质量的监督信号,使其能够从稀疏、不均匀且噪声丰富的图像集合中恢复出连贯的几何结构。具体而言,研究者利用该数据集对诸如π3和VGGT等模型进行微调,从而显著提升其在标注图像稀少、视角分布零散的真实长尾场景中的重建鲁棒性。该数据集的构建使得原本仅适用于密集、规整采集数据的三维学习方法,得以拓展至更广泛、更具挑战性的真实互联网图像领域。
解决学术问题
该数据集的核心贡献在于系统性地解决了互联网照片集合中的长尾分布问题,即绝大多数真实世界场景仅有少量、稀疏且质量参差的图像可供使用,而传统结构从运动(SfM)方法与现有前馈式学习模型在此类数据上常常失效。MegaDepth-X通过提供大规模、深度干净且经过人工验证的三维标注数据,并配套提出一种模拟长尾场景相机分布的稀疏感知采样策略,使得三维基础模型能够学习到在极端稀疏性和视角不完整条件下的几何先验。这一工作填补了从密集标注场景向稀疏真实场景迁移的监督信号缺失空白,为提升三维重建在开放世界中的泛化能力奠定了数据与方法基础。
实际应用
在实际应用中,MegaDepth-X所支撑的三维重建技术可广泛服务于文化遗产数字化保护、旅游景点的自动化三维建模、以及基于图像的增强现实地理信息构建等领域。例如,对于热门地标之外的众多小众历史遗迹或建筑,传统方法往往因图像数量不足而无法生成可靠的三维模型,而基于MegaDepth-X微调的模型则能够从少量网络照片中快速重建出较为完整的几何结构。此外,该数据集在存在视觉对称性、重复结构的场景中展现出优异的歧义消除能力,使得在如教堂、宫殿等易产生错误匹配的建筑物上仍能获得准确的三维布局。
数据集最近研究
最新研究方向
当前,MegaDepth-X数据集的研究聚焦于解决互联网照片收藏中极端长尾分布下的三维重建难题。前沿方向包括利用该数据集模拟长尾场景的稀疏、不均匀相机分布,通过提出的稀疏感知采样策略,微调前馈三维基础模型(如π3和VGGT),以提升在稀疏、弱连接或视觉模糊环境中的重建鲁棒性。该方法有效应对了经典SfM及现有模型在只有少量杂乱图像情况下的失败,并显著改善了对对称或重复结构(即“分身”场景)的几何一致性。这一研究方向推动了三维视觉基础模型从密集、理想化数据向真实、稀疏互联网图像的泛化,为构建大规模、通用的三维重建引擎奠定了基础。
相关研究论文
- 1Long-tail Internet photo reconstruction康奈尔大学; 哈佛大学·肯普纳研究所 · 2026年
以上内容由遇见数据集搜集并总结生成



