MVImgNet2.0

github2025-02-20 更新2025-03-05 收录

下载链接：

https://github.com/luyues/MVImgNet2.0

下载链接

链接失效反馈

官方服务：

资源简介：

MVImgNet2.0包含大约30万真实世界中的物体，分布在340多个类别中，扩展了MVImgNet数据集，总共包含约52万真实生活中的物体和515个类别。注释全面覆盖了物体掩膜、相机参数和点云。

MVImgNet2.0 includes approximately 300,000 real-world objects spanning over 340 categories. As an extension of the original MVImgNet dataset, the full MVImgNet collection totals approximately 520,000 real-world objects and 515 categories, with comprehensive annotations covering object masks, camera parameters, and point clouds.

创建时间：

2025-02-20

原始信息汇总

MVImgNet2.0数据集概述

基本信息

数据集名称: MVImgNet2.0: A Larger-scale Dataset of Multi-view Images
项目主页: https://luyues.github.io/mvimgnet2/
论文地址: https://arxiv.org/abs/2412.01430
开发团队: Xiaoguang Han, Yushuang Wu, Luyue Shi, Haolin Liu等，来自GAP-Lab

数据集内容

数据规模: 包含约300k真实世界物体，覆盖340+类别
扩展内容: 扩展自MVImgNet，总计约520k真实物体和515个类别
标注信息: 包括物体掩码、相机参数和点云数据

数据获取

获取方式: 需填写表单获取下载链接和密码
表单地址: https://forms.office.com/Pages/ResponsePage.aspx?id=eouJ5YecS0qyKi3z81XgHtu64XHwYCVMlIWpSlrs63lUNzNHV1pYR0lBUEtET1JGWTEzVTdVVUoyVy4u
当前发布: 已发布第一部分数据，包含约180k视频

数据结构

类别映射: 通过mvimgnet2_category.json文件提供类别名称映射
数据内容:
- images: 多视角图像
- masks: 物体掩码
- sparse: COLMAP格式的相机参数和稀疏点云

使用建议

数据读取: 推荐使用COLMAP提供的函数读取sparse文件夹下的二进制文件

许可证

数据许可: MVImgNet2.0 Terms of Use
代码许可: Attribution-NonCommercial 4.0 International License
版权声明: Copyright (c) 2024

搜集汇总

数据集介绍

构建方式

MVImgNet2.0数据集是在MVImgNet的基础上进行扩展构建的，包含约300k个真实世界物体，跨越340多个类别。该数据集通过收集和标注大量图像、视频以及相应的物体掩膜、相机参数和点云信息，构建起一个规模宏大、信息全面的数据资源库。

特点

该数据集的特点在于其大规模和多样性，不仅类别丰富，而且每个类别下的实例数量众多。此外，数据集提供了全面的标注信息，包括物体掩膜、相机参数和点云数据，这为三维视觉任务提供了丰富的数据支持。其数据质量高，适用于多种机器学习和计算机视觉任务。

使用方法

用户可通过填写在线表单获取数据集的下载链接和密码。数据集的结构按照类别标签组织，每个实例包含图像、掩膜以及稀疏点云信息。用户可以直接根据提供的`mvimgnet2_category.json`文件了解类别映射关系，并根据需求使用相应的数据。此外，数据使用需遵守MVImgNet2.0的使用条款，代码则遵循非商业用途的国际许可协议。

背景与挑战

背景概述

MVImgNet2.0是由香港中文大学（深圳）GAP-Lab的研究团队于2024年推出的一款大规模多视角图像数据集。该数据集在原有MVImgNet的基础上进行了扩展，包含了约520k个真实生活中的物体，涵盖515个类别，其注释内容全面覆盖了对象遮罩、相机参数以及点云等信息。该数据集的创建旨在为多视角图像处理、三维重建以及物体检测等领域提供更为丰富和详实的研究资源，对相关领域的研究具有重要的推动作用。

当前挑战

在构建MVImgNet2.0的过程中，研究团队面临了诸多挑战。首先，大规模数据集的构建需要处理海量的图像和视频数据，这要求高效的数据处理和存储能力。其次，多视角图像的标注工作复杂，涉及到相机参数的精确校准和点云的准确生成，这些都对标注的精度和一致性提出了较高要求。此外，数据集在解决多视角图像处理等领域问题时，还需克服视角变化、光照条件变化以及遮挡等实际问题带来的挑战。

常用场景

经典使用场景

在计算机视觉领域，MVImgNet2.0数据集的构建旨在提升多视角图像识别与三维重建技术的性能。该数据集通过提供丰富的图像实例、精细的标注信息，成为研究多视角图像处理的重要资源。经典的使用场景包括对物体进行精确的分类与检测，以及对物体进行三维形态的重建，从而为视觉算法的训练与评估提供了全面的基础。

实际应用

在实际应用中，MVImgNet2.0数据集可被用于自动驾驶系统中的物体识别与场景重建，增强现实（AR）中的交互式对象放置，以及机器人视觉系统中的环境理解等。这些应用场景对图像的识别精度和三维理解能力提出了高要求，而该数据集正好满足了这些需求。

衍生相关工作

基于MVImgNet2.0数据集，研究者们开展了一系列相关工作，包括改进的多视角图像识别算法、高效的三维重建方法以及创新的视觉服务应用。这些衍生工作不仅拓宽了数据集的应用范围，也为计算机视觉领域带来了新的研究视角和技术突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集