MVImgNet2.0
收藏github2025-02-20 更新2025-03-05 收录
下载链接:
https://github.com/luyues/MVImgNet2.0
下载链接
链接失效反馈官方服务:
资源简介:
MVImgNet2.0包含大约30万真实世界中的物体,分布在340多个类别中,扩展了MVImgNet数据集,总共包含约52万真实生活中的物体和515个类别。注释全面覆盖了物体掩膜、相机参数和点云。
MVImgNet2.0 includes approximately 300,000 real-world objects spanning over 340 categories. As an extension of the original MVImgNet dataset, the full MVImgNet collection totals approximately 520,000 real-world objects and 515 categories, with comprehensive annotations covering object masks, camera parameters, and point clouds.
创建时间:
2025-02-20
原始信息汇总
MVImgNet2.0数据集概述
基本信息
- 数据集名称: MVImgNet2.0: A Larger-scale Dataset of Multi-view Images
- 项目主页: https://luyues.github.io/mvimgnet2/
- 论文地址: https://arxiv.org/abs/2412.01430
- 开发团队: Xiaoguang Han, Yushuang Wu, Luyue Shi, Haolin Liu等,来自GAP-Lab
数据集内容
- 数据规模: 包含约300k真实世界物体,覆盖340+类别
- 扩展内容: 扩展自MVImgNet,总计约520k真实物体和515个类别
- 标注信息: 包括物体掩码、相机参数和点云数据
数据获取
- 获取方式: 需填写表单获取下载链接和密码
- 表单地址: https://forms.office.com/Pages/ResponsePage.aspx?id=eouJ5YecS0qyKi3z81XgHtu64XHwYCVMlIWpSlrs63lUNzNHV1pYR0lBUEtET1JGWTEzVTdVVUoyVy4u
- 当前发布: 已发布第一部分数据,包含约180k视频
数据结构
|-- ROOT
|-- class_label
|-- instance_id
|-- images
|-- masks
|-- sparse/0
|-- cameras.bin
|-- images.bin
|-- points3D.bin
- 类别映射: 通过
mvimgnet2_category.json文件提供类别名称映射 - 数据内容:
images: 多视角图像masks: 物体掩码sparse: COLMAP格式的相机参数和稀疏点云
使用建议
- 数据读取: 推荐使用COLMAP提供的函数读取
sparse文件夹下的二进制文件
许可证
- 数据许可: MVImgNet2.0 Terms of Use
- 代码许可: Attribution-NonCommercial 4.0 International License
- 版权声明: Copyright (c) 2024
搜集汇总
数据集介绍

构建方式
MVImgNet2.0数据集是在MVImgNet的基础上进行扩展构建的,包含约300k个真实世界物体,跨越340多个类别。该数据集通过收集和标注大量图像、视频以及相应的物体掩膜、相机参数和点云信息,构建起一个规模宏大、信息全面的数据资源库。
特点
该数据集的特点在于其大规模和多样性,不仅类别丰富,而且每个类别下的实例数量众多。此外,数据集提供了全面的标注信息,包括物体掩膜、相机参数和点云数据,这为三维视觉任务提供了丰富的数据支持。其数据质量高,适用于多种机器学习和计算机视觉任务。
使用方法
用户可通过填写在线表单获取数据集的下载链接和密码。数据集的结构按照类别标签组织,每个实例包含图像、掩膜以及稀疏点云信息。用户可以直接根据提供的`mvimgnet2_category.json`文件了解类别映射关系,并根据需求使用相应的数据。此外,数据使用需遵守MVImgNet2.0的使用条款,代码则遵循非商业用途的国际许可协议。
背景与挑战
背景概述
MVImgNet2.0是由香港中文大学(深圳)GAP-Lab的研究团队于2024年推出的一款大规模多视角图像数据集。该数据集在原有MVImgNet的基础上进行了扩展,包含了约520k个真实生活中的物体,涵盖515个类别,其注释内容全面覆盖了对象遮罩、相机参数以及点云等信息。该数据集的创建旨在为多视角图像处理、三维重建以及物体检测等领域提供更为丰富和详实的研究资源,对相关领域的研究具有重要的推动作用。
当前挑战
在构建MVImgNet2.0的过程中,研究团队面临了诸多挑战。首先,大规模数据集的构建需要处理海量的图像和视频数据,这要求高效的数据处理和存储能力。其次,多视角图像的标注工作复杂,涉及到相机参数的精确校准和点云的准确生成,这些都对标注的精度和一致性提出了较高要求。此外,数据集在解决多视角图像处理等领域问题时,还需克服视角变化、光照条件变化以及遮挡等实际问题带来的挑战。
常用场景
经典使用场景
在计算机视觉领域,MVImgNet2.0数据集的构建旨在提升多视角图像识别与三维重建技术的性能。该数据集通过提供丰富的图像实例、精细的标注信息,成为研究多视角图像处理的重要资源。经典的使用场景包括对物体进行精确的分类与检测,以及对物体进行三维形态的重建,从而为视觉算法的训练与评估提供了全面的基础。
实际应用
在实际应用中,MVImgNet2.0数据集可被用于自动驾驶系统中的物体识别与场景重建,增强现实(AR)中的交互式对象放置,以及机器人视觉系统中的环境理解等。这些应用场景对图像的识别精度和三维理解能力提出了高要求,而该数据集正好满足了这些需求。
衍生相关工作
基于MVImgNet2.0数据集,研究者们开展了一系列相关工作,包括改进的多视角图像识别算法、高效的三维重建方法以及创新的视觉服务应用。这些衍生工作不仅拓宽了数据集的应用范围,也为计算机视觉领域带来了新的研究视角和技术突破。
以上内容由遇见数据集搜集并总结生成



