MVImgNet

arXiv2023-03-11 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2303.06042v1

下载链接

链接失效反馈

官方服务：

资源简介：

MVImgNet是一个大规模的多视角图像数据集，包含650万帧来自219,188个跨越238个类别的视频，具有丰富的对象掩码、相机参数和点云注释。该数据集的多视角属性赋予了其3D感知信号，成为2D和3D视觉之间的软桥梁。

MVImgNet is a large-scale multi-view image dataset comprising 6.5 million frames from 219,188 videos across 238 object categories, with rich annotations including object masks, camera parameters, and point cloud annotations. Its multi-view nature endows it with 3D perception signals, acting as a soft bridge between 2D and 3D vision.

创建时间：

2023-03-11

搜集汇总

数据集介绍

构建方式

在三维视觉领域，构建大规模真实世界数据集常面临采集与标注的挑战。MVImgNet创新性地采用多视角图像作为数据基础，通过众包方式高效收集。具体而言，研究团队招募约1000名来自不同职业和年龄段的采集者，使用智能手机等移动设备围绕日常生活中的物体拍摄视频，确保每个视频捕获约180°至360°的视角，并包含单一类别的主体物体。随后，约200名专家数据清理员对提交的视频进行审核，剔除模糊、视角不全或物体比例不足15%的不合格样本。通过这一流程，最终从约26万原始视频中筛选出21.9万个合格视频，涵盖238个物体类别，并从中提取650万帧图像。数据后续经过稀疏重建（COLMAP SfM算法）、前景分割（CarveKit工具）和密集重建（多视角立体算法）等自动化处理，生成了物体掩码、相机参数和点云等丰富注释。

特点

MVImgNet作为连接二维与三维视觉的桥梁，其核心特点在于规模宏大且富含真实世界信号。数据集包含650万帧多视角图像，源自21.9万个视频，覆盖238个日常物体类别，数据量显著超越现有同类数据集。多视角属性赋予其内在的三维感知能力，使得数据不仅能支持三维重建任务，还能增强二维图像理解的视角一致性。此外，通过密集重建衍生的点云数据集MVPNet，包含8.72万个点云样本，涵盖150个类别，进一步扩展了其在三维理解中的应用潜力。与合成数据集相比，MVImgNet捕捉了真实环境中的上下文、遮挡和噪声，提升了模型的鲁棒性；与ImageNet等二维数据集相比，它通过多视角约束引入了三维视觉信号，为通用视觉表示学习提供了新的可能。

使用方法

MVImgNet在多种视觉任务中展现出广泛适用性。在三维重建方面，数据集可用于预训练通用化神经辐射场（NeRF）模型，如IBRNet，通过在大规模多视角图像上学习三维先验，显著提升模型在未见场景中的泛化能力；同时，它也支持自监督多视角立体（MVS）方法的预训练，如JDACS，在有限训练数据下提高深度估计精度。在图像理解领域，MVImgNet可用于增强模型的视角一致性，例如通过混合ImageNet数据训练ResNet等分类网络，降低不同视角下的预测方差；此外，其多视角图像可作为对比学习中的正样本对，改进自监督表示学习。在三维点云理解中，衍生的MVPNet数据集可用于预训练点云分类模型（如PointNet++、PointMAE），提升其在真实世界数据（如ScanObjectNN）上的性能。研究人员可通过标准化流程加载数据，利用提供的相机参数、物体掩码和点云注释，灵活适配不同任务的输入需求。

背景与挑战

背景概述

MVImgNet数据集由香港中文大学（深圳）的研究团队于2023年提出，旨在填补三维视觉领域缺乏大规模通用数据集的空白。该数据集通过众包方式采集现实世界物体的多视角视频，包含219,188个视频、650万帧图像，涵盖238个日常物体类别，并提供了物体掩码、相机参数和点云等丰富标注。其核心研究问题在于构建一个连接二维与三维视觉的桥梁，以多视角图像蕴含的三维一致性信号，支持辐射场重建、多视角立体视觉等任务，推动三维视觉的通用表征学习。

当前挑战

MVImgNet面临的挑战主要体现在两方面：其一，在领域问题层面，该数据集致力于解决三维视觉中缺乏大规模真实世界数据的问题，但现有三维任务如点云分类、神经辐射场重建等，仍受限于合成数据与真实场景间的域差异，以及部分视角重建的完整性挑战；其二，在构建过程中，数据采集需平衡规模与质量，包括确保视频帧的清晰度、视角覆盖度，以及通过众包实现类别多样性，同时标注流程涉及复杂的运动恢复结构和多视角立体算法，计算成本较高。

常用场景

经典使用场景

在三维视觉领域，多视角图像数据集MVImgNet为神经辐射场（NeRF）重建提供了经典的应用场景。通过从不同视角捕捉真实世界物体的视频，该数据集构建了大规模的多视图图像集合，为学习通用三维先验知识奠定了数据基础。研究者利用MVImgNet预训练模型，显著提升了NeRF在少样本输入下对新场景的泛化能力，实现了从合成到真实域的高质量视图合成。

衍生相关工作

基于MVImgNet，研究者衍生出多项经典工作，例如在神经辐射场重建中，IBRNet等模型通过预训练显著提升泛化性能；在多视图立体视觉领域，JDACS等自监督方法利用该数据集实现数据高效学习。同时，MVPNet点云数据集的建立，催生了针对真实场景的点云分类、自监督预训练等研究，如PointMAE在该数据集上展现了卓越的迁移能力，推动了三维理解任务的进展。

数据集最近研究