uCO3D: UnCommon Objects in 3D

github2024-12-30 更新2024-12-31 收录

下载链接：

https://github.com/facebookresearch/uco3d

下载链接

链接失效反馈

官方服务：

资源简介：

uCO3D数据集包含约170,000个转盘视频，捕捉了来自LVIS分类法中的对象类别。数据集包含从各个方向扫描的多样化对象的视频，对象来自约1000个类别，分为50个超级类别。与CO3Dv2不同，uCO3D发布了完整的原始视频而非帧。每个视频都标注了对象分割、相机姿态和三种类型的点云。数据集还包含每个视频的3D高斯溅射重建，以及通过大型视频语言模型获得的长短描述。

The uCO3D dataset comprises approximately 170,000 turntable videos capturing object categories from the LVIS taxonomy. The dataset contains videos of diverse objects scanned from all viewpoints, covering around 1,000 object categories grouped into 50 supercategories. Unlike CO3Dv2, uCO3D releases complete raw videos rather than individual frames. Each video is annotated with object segmentation masks, camera poses, and three types of point clouds. Additionally, the dataset includes 3D Gaussian Splatting reconstructions for each video, as well as short and long textual descriptions generated via large video-language models.

创建时间：

2024-12-04

原始信息汇总

uCO3D: UnCommon Objects in 3D 数据集概述

数据集简介

uCO3D（UnCommon Objects in 3D）数据集包含约170,000个转台视频，捕捉了来自LVIS分类法中的物体类别。数据集的主要特点包括：

170,000个视频，从各个方向扫描多样化的物体。
物体来自LVIS分类法中的约1000个类别，分为50个超类别。
与CO3Dv2不同，uCO3D发布完整的原始视频而非帧。
每个视频都标注了物体分割、相机姿态和三种类型的点云。
数据集新增了每个视频的3D高斯泼溅重建。
每个场景包含通过大型视频语言模型生成的长短描述。
相较于CO3Dv2，显著提高了标注质量和规模。

数据集下载与安装

完整数据集（处理版本）占用约19.3 TB空间，以不超过20 GB的块分发。
提供自动下载和解压缩数据的脚本。

下载步骤

克隆仓库并安装依赖： bash git clone git@github.com:facebookresearch/uco3d.git cd uco3d pip install -e .
运行下载脚本（确保更改<DESTINATION_FOLDER>）： bash python dataset_download/download_dataset.py --download_folder <DESTINATION_FOLDER> --checksum_check

下载子集

支持下载特定子集（如特定物体类别的高斯泼溅和RGB视频）。
通过--download_modalities和--download_super_categories参数选择下载的模态和超类别。

模态大小

Modality Size (TB)

rgb_videos 7.59 mask_videos 0.16 depth_maps 9.69 gaussian_splats 1.18 point_clouds 0.57 segmented_point_clouds 0.04 sparse_point_clouds 0.04

Total 19.27

数据集格式

数据集文件系统结构如下：

├── metadata.sqlite ├── set_lists │ ├── set_lists_3categories-debug.sqlite │ ├── set_lists_all-categories.sqlite │ ├── set_lists_<subset_lists_name_2>.sqlite │ ├── ... ├── <super_category_1> │ ├── <category_1> │ │ ├── <sequence_name_1> │ │ │ ├── depth_maps.h5 │ │ │ ├── gaussian_splats │ │ │ ├── mask_video.mkv │ │ │ ├── rgb_video.mp4 │ │ │ ├── point_cloud.ply │ │ │ ├── segmented_point_cloud.ply │ │ │ └── sparse_point_cloud.ply │ │ ├── <sequence_name_2> │ │ │ ├── depth_maps.h5 │ │ │ ├── gaussian_splats │ │ │ ├── mask_video.mkv │ │ │ ├── rgb_video.mp4 │ │ │ ├── point_cloud.ply │ │ │ ├── segmented_point_cloud.ply │ │ │ └── sparse_point_cloud.ply │ │ ├── ... │ │ ├── <sequence_name_S> │ ├── ... │ ├── <category_C> ├── ... ├── <super_category_S>

元数据数据库

$UCO3D_DATASET_ROOT/metadata.sqlite文件包含所有帧级和视频级元数据的数据库，如单个RGB/掩码视频的路径或每帧的相机姿态。

许可证

数据集在CC BY 4.0许可证下发布。

引用

如果使用该数据集，请引用以下文献： bibtex @inproceedings{liu24uco3d, Author = {Liu, Xingchen and Tayal, Piyush and Wang, Jianyuan and Zarzar, Jesus and Monnier, Tom and Tertikas, Konstantinos and Duan, Jiali and Toisoul, Antoine and Zhang, Jason Y. and Neverova, Natalia and Vedaldi, Andrea and Shapovalov, Roman and Novotny, David}, Booktitle = {arXiv}, Title = {UnCommon Objects in 3D}, Year = {2024}, }

搜集汇总

数据集介绍

构建方式

uCO3D数据集通过捕捉来自LVIS分类法中的约1000个类别的物体，构建了一个包含约17万段转台视频的3D物体数据集。与CO3Dv2不同，uCO3D不仅发布了完整的原始视频，还提供了物体分割、相机姿态以及三种类型的点云注释。此外，每个视频还包含通过大型视频语言模型生成的长短描述，显著提升了注释质量和数据规模。数据集的构建过程涉及多模态数据的采集与处理，包括RGB视频、深度图、3D高斯溅射重建等，确保了数据的多样性和丰富性。

特点

uCO3D数据集的特点在于其多样性和深度。数据集涵盖了来自50个超类别的约1000个物体类别，提供了17万段全方位扫描的视频。每段视频不仅包含RGB视频和分割掩码，还提供了深度图、3D高斯溅射重建以及三种类型的点云数据。此外，数据集还引入了3D高斯溅射重建技术，为每个视频生成了高质量的场景重建。这些特点使得uCO3D在3D物体重建、场景理解等任务中具有广泛的应用潜力。

使用方法

uCO3D数据集的使用方法灵活多样。用户可以通过提供的下载脚本选择性地下载特定模态或超类别的数据，以减少存储空间的占用。数据集提供了丰富的API接口，用户可以通过`UCO3DDataset`对象加载数据，并根据需求选择加载不同的模态，如RGB图像、深度图、点云等。此外，数据集还支持3D高斯溅射的渲染，用户可以通过`gsplat`库对场景进行快速渲染。通过这些工具，用户可以轻松地进行3D物体重建、场景理解等任务的研究与开发。

背景与挑战

背景概述

uCO3D: UnCommon Objects in 3D 数据集由Facebook Research团队于2024年发布，旨在为三维物体重建与理解提供丰富的多模态数据资源。该数据集包含约170,000个转台视频，涵盖了来自LVIS分类体系的近1000个物体类别，分为50个超类别。与CO3Dv2相比，uCO3D不仅提供了完整的原始视频，还包含了物体分割、相机姿态、三种点云数据以及3D高斯溅射重建等丰富注释。此外，每个场景还配备了由大型视频语言模型生成的长短描述，显著提升了注释质量和数据规模。该数据集的发布为三维视觉、物体识别与场景理解等领域的研究提供了重要的数据支持。

当前挑战

uCO3D数据集在构建与应用过程中面临多重挑战。首先，数据规模庞大，完整数据集占用约19.3 TB存储空间，对存储与计算资源提出了较高要求。其次，多模态数据的对齐与一致性处理是技术难点，例如深度图与稀疏点云的尺度对齐、视频分割与三维重建的精确匹配等。此外，数据集的多样性带来了类别不平衡问题，部分超类别的样本数量较少，可能影响模型的泛化能力。在应用层面，如何高效利用3D高斯溅射重建等新兴技术，以及如何结合视频语言模型生成的描述进行多模态学习，也是亟待解决的挑战。

常用场景

经典使用场景

uCO3D数据集在三维物体重建和场景理解领域具有广泛的应用。其包含的17万段转台视频，覆盖了LVIS分类体系中的约1000个类别，为研究者提供了丰富的多视角物体数据。这些视频不仅包含RGB信息，还附带了物体分割、相机姿态和三种点云数据，使得该数据集在三维重建、物体识别和场景理解等任务中表现出色。

实际应用

在实际应用中，uCO3D数据集被广泛用于增强现实（AR）、虚拟现实（VR）和机器人视觉等领域。例如，在AR应用中，数据集中的三维重建数据可以用于生成逼真的虚拟物体，提升用户体验。在机器人视觉中，数据集的多视角视频和点云数据可以帮助机器人更好地理解和交互其周围环境。此外，数据集中的物体分割和相机姿态信息也为自动驾驶中的场景理解提供了重要支持。

衍生相关工作

uCO3D数据集已经催生了多项经典研究工作。例如，基于该数据集的高斯泼溅重建技术被广泛应用于三维场景的实时渲染和交互。此外，数据集中的多模态信息（如视频和文本描述）也推动了多模态学习模型的发展，特别是在视频理解和生成任务中。这些衍生工作不仅扩展了数据集的应用范围，也为三维视觉和多模态学习领域提供了新的研究思路。

以上内容由遇见数据集搜集并总结生成