MVImgNet2.0

Name: MVImgNet2.0
Creator: MVImgNet Team
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

http://luyues.github.io/mvimgnet2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为MVImgNet2.0，是一个大规模的数据集，包含了约520,000个现实世界物体在515个类别中的多视角图像。它提供了一个与2D领域更可比的3D数据集。此外，该数据集还包括高质量的点云数据及数据标注代码，这些数据是通过360度视角视频收集而来的。该数据集的规模约为520,000个物体，分布在515个类别中，其任务涉及3D物体重建和分割。

提供机构：

MVImgNet Team

搜集汇总

数据集介绍

构建方式

MVImgNet2.0的构建基于对前代版本MVImgNet的大规模扩展与质量提升。研究团队通过众包方式收集了约300k段新视频，覆盖277个全新类别，使数据集总量达到520k个对象与515个类别。在数据采集阶段，要求视频时长约为10秒、画面清晰、目标物体占比超过15%，并尽可能实现360度环绕拍摄。每段视频经人工审核后，抽取约30帧进行后续处理：采用Pixel-Perfect Structure-from-Motion（PixSfM）算法估计相机位姿，利用Grounding-DINO、Segment-Anything（SAM）与DeAOT追踪器组成的检测-分割-追踪流水线生成高精度前景掩码，并基于神经表面重建方法Instant-Angelo重建稠密点云。所有标注结果均经过人工质检，确保数据质量。

特点

MVImgNet2.0的核心特点体现在规模与质量的双重飞跃。相较于MVImgNet，其对象数量与类别范围均翻倍，总计达520k个真实世界对象与515个类别，显著缩小了与ImageNet等2D大规模数据集的差距。在数据采集上，新增的300k段视频中绝大部分实现了360度环绕拍摄，为学习完整的三维形状提供了更全面的视角。在标注质量上，通过PixSfM算法显著提升了无纹理或光滑表面物体的相机位姿估计精度；检测-分割-追踪流水线大幅改善了前景掩码的边界准确性；基于神经表面重建的稠密点云方法则带来了更精细、更鲁棒的三维几何重建。这些特性使MVImgNet2.0成为支持大规模三维学习的高质量基准。

使用方法

MVImgNet2.0主要面向三维重建领域的研究与应用。在逐场景三维重建中，研究者可直接利用其高精度的相机位姿与多视角图像，作为Instant-NGP或3D Gaussian Splatting等方法的输入，进行场景级优化。在类别无关的三维重建任务中，数据集可作为大规模训练数据，用于训练Large Reconstruction Model（LRM）、Large Multi-View Gaussian Model（LGM）或TriplaneGaussian等通用重建模型。使用时，可从每段视频中随机选取若干视角作为输入，其余视角作为监督信号。此外，数据集提供的稠密点云与前景掩码可直接作为三维形状监督或分割任务的训练资源。所有数据（包括多视角图像、点云与标注代码）均已公开，便于社区直接下载与使用。

背景与挑战

背景概述

MVImgNet2.0是由香港中文大学（深圳）的韩晓光团队与阿里巴巴集团合作，于2024年发布的大规模多视图图像数据集。作为MVImgNet的升级版本，该数据集旨在缩小二维与三维视觉领域之间的数据规模鸿沟，其核心研究问题在于构建一个能够支撑大规模三维深度学习的高质量真实世界物体数据集。MVImgNet2.0共包含约52万个物体，涵盖515个类别，其规模接近二维领域标杆数据集ImageNet的一半，为三维物体重建、多视图立体视觉和视图一致性理解等任务提供了丰富的数据基础，显著推动了三领域大模型训练与泛化能力的研究。

当前挑战

MVImgNet2.0所解决的领域问题在于真实世界三维数据稀缺且采集成本高昂，现有数据集如CO3D和GSO规模有限，而合成数据如ShapeNet存在域间差距，限制了三维重建模型的泛化能力。在构建过程中，主要挑战包括：大规模众包视频数据的质量控制，需确保360度环绕拍摄的清晰度与完整性；高精度相机位姿估计，尤其针对纹理稀疏物体，传统SfM方法易失效；精确前景物体分割，需应对复杂背景和边界模糊；以及密集点云的高保真重建，需采用神经表面渲染等先进方法以提升精度与鲁棒性。

常用场景

经典使用场景

在三维视觉研究领域，MVImgNet2.0作为一种大规模多视图图像数据集，其经典使用场景主要聚焦于类别无关的三维物体重建。研究者借助该数据集提供的丰富多视角图像、精确相机位姿及高质量稠密点云，训练诸如LRM、LGM和TriplaneGaussian等大型重建模型，实现从单张或多张图像到三维形状的泛化性重建，显著提升了模型对真实世界物体几何与纹理细节的恢复能力。

实际应用

在实际应用层面，MVImgNet2.0为增强现实、机器人抓取、数字孪生及影视特效等领域提供了关键的数据支撑。例如，在机器人视觉中，利用该数据集训练的重建模型可快速从真实场景的少量图像中生成物体的三维点云，辅助机器人进行精准的物体识别与操作。此外，在电商与游戏行业中，基于MVImgNet2.0的模型能够高效地将二维产品图像转化为可交互的三维资产，大幅降低了三维内容创作的成本与门槛。

衍生相关工作

MVImgNet2.0的发布催生了一系列具有影响力的衍生工作。在三维重建方向，研究者基于其多视图一致性信号，发展了诸如ReconFusion等利用扩散先验进行三维重构的方法，以及DMV3D等结合多视图扩散模型与大型重建模型的生成框架。此外，该数据集还被用于训练多视图扩散模型（如CAT3D）和视频扩散模型，推动了高质量三维内容生成技术的进步，并在场景级重建、可泛化新视角合成及三维超分辨率等任务中展现出重要价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集