five

MVImgNet

收藏
arXiv2023-03-11 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2303.06042v1
下载链接
链接失效反馈
官方服务:
资源简介:
MVImgNet是一个大规模的多视角图像数据集,包含650万帧来自219,188个跨越238个类别的视频,具有丰富的对象掩码、相机参数和点云注释。该数据集的多视角属性赋予了其3D感知信号,成为2D和3D视觉之间的软桥梁。

MVImgNet is a large-scale multi-view image dataset comprising 6.5 million frames from 219,188 videos across 238 object categories, with rich annotations including object masks, camera parameters, and point cloud annotations. Its multi-view nature endows it with 3D perception signals, acting as a soft bridge between 2D and 3D vision.
创建时间:
2023-03-11
搜集汇总
数据集介绍
main_image_url
构建方式
在三维视觉领域,构建大规模真实世界数据集常面临采集与标注的挑战。MVImgNet创新性地采用多视角图像作为数据基础,通过众包方式高效收集。具体而言,研究团队招募约1000名来自不同职业和年龄段的采集者,使用智能手机等移动设备围绕日常生活中的物体拍摄视频,确保每个视频捕获约180°至360°的视角,并包含单一类别的主体物体。随后,约200名专家数据清理员对提交的视频进行审核,剔除模糊、视角不全或物体比例不足15%的不合格样本。通过这一流程,最终从约26万原始视频中筛选出21.9万个合格视频,涵盖238个物体类别,并从中提取650万帧图像。数据后续经过稀疏重建(COLMAP SfM算法)、前景分割(CarveKit工具)和密集重建(多视角立体算法)等自动化处理,生成了物体掩码、相机参数和点云等丰富注释。
特点
MVImgNet作为连接二维与三维视觉的桥梁,其核心特点在于规模宏大且富含真实世界信号。数据集包含650万帧多视角图像,源自21.9万个视频,覆盖238个日常物体类别,数据量显著超越现有同类数据集。多视角属性赋予其内在的三维感知能力,使得数据不仅能支持三维重建任务,还能增强二维图像理解的视角一致性。此外,通过密集重建衍生的点云数据集MVPNet,包含8.72万个点云样本,涵盖150个类别,进一步扩展了其在三维理解中的应用潜力。与合成数据集相比,MVImgNet捕捉了真实环境中的上下文、遮挡和噪声,提升了模型的鲁棒性;与ImageNet等二维数据集相比,它通过多视角约束引入了三维视觉信号,为通用视觉表示学习提供了新的可能。
使用方法
MVImgNet在多种视觉任务中展现出广泛适用性。在三维重建方面,数据集可用于预训练通用化神经辐射场(NeRF)模型,如IBRNet,通过在大规模多视角图像上学习三维先验,显著提升模型在未见场景中的泛化能力;同时,它也支持自监督多视角立体(MVS)方法的预训练,如JDACS,在有限训练数据下提高深度估计精度。在图像理解领域,MVImgNet可用于增强模型的视角一致性,例如通过混合ImageNet数据训练ResNet等分类网络,降低不同视角下的预测方差;此外,其多视角图像可作为对比学习中的正样本对,改进自监督表示学习。在三维点云理解中,衍生的MVPNet数据集可用于预训练点云分类模型(如PointNet++、PointMAE),提升其在真实世界数据(如ScanObjectNN)上的性能。研究人员可通过标准化流程加载数据,利用提供的相机参数、物体掩码和点云注释,灵活适配不同任务的输入需求。
背景与挑战
背景概述
MVImgNet数据集由香港中文大学(深圳)的研究团队于2023年提出,旨在填补三维视觉领域缺乏大规模通用数据集的空白。该数据集通过众包方式采集现实世界物体的多视角视频,包含219,188个视频、650万帧图像,涵盖238个日常物体类别,并提供了物体掩码、相机参数和点云等丰富标注。其核心研究问题在于构建一个连接二维与三维视觉的桥梁,以多视角图像蕴含的三维一致性信号,支持辐射场重建、多视角立体视觉等任务,推动三维视觉的通用表征学习。
当前挑战
MVImgNet面临的挑战主要体现在两方面:其一,在领域问题层面,该数据集致力于解决三维视觉中缺乏大规模真实世界数据的问题,但现有三维任务如点云分类、神经辐射场重建等,仍受限于合成数据与真实场景间的域差异,以及部分视角重建的完整性挑战;其二,在构建过程中,数据采集需平衡规模与质量,包括确保视频帧的清晰度、视角覆盖度,以及通过众包实现类别多样性,同时标注流程涉及复杂的运动恢复结构和多视角立体算法,计算成本较高。
常用场景
经典使用场景
在三维视觉领域,多视角图像数据集MVImgNet为神经辐射场(NeRF)重建提供了经典的应用场景。通过从不同视角捕捉真实世界物体的视频,该数据集构建了大规模的多视图图像集合,为学习通用三维先验知识奠定了数据基础。研究者利用MVImgNet预训练模型,显著提升了NeRF在少样本输入下对新场景的泛化能力,实现了从合成到真实域的高质量视图合成。
衍生相关工作
基于MVImgNet,研究者衍生出多项经典工作,例如在神经辐射场重建中,IBRNet等模型通过预训练显著提升泛化性能;在多视图立体视觉领域,JDACS等自监督方法利用该数据集实现数据高效学习。同时,MVPNet点云数据集的建立,催生了针对真实场景的点云分类、自监督预训练等研究,如PointMAE在该数据集上展现了卓越的迁移能力,推动了三维理解任务的进展。
数据集最近研究
最新研究方向
在三维视觉领域,MVImgNet作为大规模多视角图像数据集,正引领着从二维到三维的桥梁式研究。其多视角一致性蕴含的三维感知信号,为神经辐射场重建、多视角立体视觉等任务提供了丰富的先验知识。前沿探索聚焦于利用该数据集提升模型在真实场景中的泛化能力,例如通过预训练增强NeRF在新视角合成中的表现,或推动自监督学习在点云分类中的应用。MVImgNet衍生的MVPNet点云数据集,进一步挑战了真实世界三维物体识别的边界,激发了跨模态视觉理解的创新。这些进展不仅深化了三维视觉的数据驱动范式,也为自动驾驶、机器人交互等实际应用奠定了坚实基础。
相关研究论文
  • 1
    MVImgNet: A Large-scale Dataset of Multi-view Images · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作