3.6M image pairs dataset

Name: 3.6M image pairs dataset
Creator: 苏黎世联邦理工学院（ETH Zürich）, Meta Reality Labs Zürich, 卡内基梅隆大学（CMU）
Published: 2025-04-02 19:57:01
License: 暂无描述

arXiv2025-04-02 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.01647v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由苏黎世联邦理工学院、Meta Reality Labs Zürich和卡内基梅隆大学的研究人员创建的，包含3.6M个图像对，用于训练流匹配模型以改进3D场景重建。数据集由10.3k个场景组成，每个场景包含从稀疏视角重建的渲染图像和地面真实图像的对，这些图像对用于训练模型以生成更高质量的3D场景重建。

This dataset was created by researchers from ETH Zurich, Meta Reality Labs Zürich, and Carnegie Mellon University, and contains 3.6 million image pairs for training flow matching models to improve 3D scene reconstruction. It consists of 10.3k scenes, each of which includes pairs of rendered images reconstructed from sparse viewpoints and ground-truth images, and these image pairs are used to train models to generate higher-quality 3D scene reconstructions.

提供机构：

苏黎世联邦理工学院（ETH Zürich）, Meta Reality Labs Zürich, 卡内基梅隆大学（CMU）

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

3.6M image pairs数据集是通过对10.3k个场景进行初始稀疏重建后，从非训练视角生成渲染图像与真实图像配对构建而成。研究团队采用基于3D高斯泼溅（3DGS）的鲁棒重建流程，通过多视图匹配和三角化生成半稠密点云，并利用自适应密度控制机制优化几何表示。针对每个场景，通过不同稀疏度的视角子集生成多样化的视角分布，最终形成360万对高分辨率（540×960）图像对，平均每个场景处理耗时6.5分钟。

特点

该数据集的核心特点在于其规模性和多模态对齐性。作为目前最大的3D重建增强数据集，它覆盖了从稀疏到稠密视角的连续分布，每对图像包含初始重建的渲染结果与真实视角的精确对应。数据经过严格的几何一致性验证，所有图像均经过去畸变和分辨率标准化处理。特别值得注意的是，数据集隐含了从非理想重建到真实图像的映射关系，为流匹配模型提供了从稀疏到稠密重建的完整学习轨迹。

使用方法

该数据集专为训练多视角流匹配模型设计，使用时需将初始重建的渲染图像作为源分布样本，真实图像作为目标分布。研究人员建议采用分块加载策略处理高分辨率数据，并利用预训练的VAE编码器将图像转换到隐空间以降低计算复杂度。对于下游3D重建任务，可将流匹配模型生成的增强视图与原始输入视图联合优化，此时需对两类数据分别应用不同的损失函数——原始视图使用L1+SSIM损失，生成视图则采用L2+SSIM+LPIPS的复合损失。

背景与挑战

背景概述

3.6M image pairs dataset是由Meta Reality Labs Zurich和ETH Zurich的研究团队于2025年提出的，旨在解决稀疏视图下3D重建质量下降的问题。该数据集的核心研究问题是通过多视角流匹配模型，将稀疏重建的渲染图像映射到密集重建的预期结果，从而提升新视角合成（NVS）的质量。数据集包含360万对渲染图像与真实图像的配对，覆盖了10.3k个场景序列，为3D高斯泼溅（3DGS）和神经辐射场（NeRF）等技术的优化提供了重要支持。其创新性在于首次将流匹配范式引入3D重建领域，显著提升了虚拟现实（VR）等应用场景中的重建效果。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，稀疏视图重建存在几何不一致和伪影问题，传统方法依赖密集采样或2D生成模型，难以平衡效率与质量；构建过程方面，需处理大规模多视角数据对齐、相机姿态估计的精度要求，以及跨场景泛化能力的保障。技术难点包括：流匹配模型对初始重建误差的敏感性、多视角一致性保持的复杂度，以及从360万对图像中提取有效特征的算力需求。此外，数据采集涉及复杂的光照变化和遮挡场景，进一步增加了标注和清洗的难度。

常用场景

经典使用场景

3.6M image pairs dataset在计算机视觉领域中被广泛应用于3D重建和新视角合成任务。该数据集通过提供大量稀疏到密集重建的图像对，为训练多视角流匹配模型提供了丰富的数据支持。其经典使用场景包括从稀疏输入图像生成高质量的新视角渲染，从而提升3D高斯泼溅（3D Gaussian Splatting）的重建质量。

衍生相关工作

基于该数据集的研究工作衍生出了多项重要成果。FlowR模型首次将流匹配范式引入3D重建领域，启发了后续关于多视角一致性生成的研究。相关工作包括ViewCrafter的视图生成方法、InstantSplat的快速稀疏视图重建技术，以及GANeRF在密集视图场景下的应用，这些工作都建立在该数据集提供的基准之上。

数据集最近研究