Kubric_vlbm

Hugging Face2026-01-19 更新2026-01-20 收录

下载链接：

https://huggingface.co/datasets/ZhengGuangze/Kubric_vlbm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Kubric合成场景生成并转换为Flock4D格式的3D点跟踪序列。每个序列包括RGB图像、深度图、2D/3D轨迹、相机参数和场景元数据。数据集共有5,869个序列，分辨率为512×512像素，每个序列包含32,768个点和120帧。数据格式包括JPEG格式的RGB图像、NPZ格式的深度图以及包含2D/3D轨迹、可见性标志和相机内外参的NumPy压缩文件。数据集还提供了场景元数据的JSON文件。

创建时间：

2026-01-17

原始信息汇总

Kubric CoTracker3 数据集概述

数据集基本信息

数据集名称：Kubric CoTracker3 Dataset
许可协议：Apache-2.0
数据来源：由Kubric合成场景生成，并使用CoTracker3处理
数据格式：Flock4D兼容格式
序列总数：5,869个序列
总大小：约313 GB（未压缩）

数据内容与结构

序列内容

每个序列包含以下内容：

RGB图像：JPEG格式，分辨率为512×512像素
深度图：NPZ格式，分辨率为512×512像素，深度值源自Kubric的度量深度输出（单位为米）
2D/3D轨迹：包含点的2D像素坐标和3D相机空间坐标
相机参数：包含相机内参矩阵和外参矩阵（世界到相机的变换矩阵）
场景元数据：包含传感器参数等场景信息

目录结构

每个序列目录结构如下：

{sequence_id}/ ├── rgbs/ # RGB图像文件夹 ├── depths/ # 深度图文件夹 ├── annotations.npz # 标注数据文件 └── scene_info.json # 场景信息文件

技术规格

图像与标注

图像分辨率：512 × 512像素
每序列帧数：120帧
每序列点数：32,768个点
数据类型：
- 图像：JPEG（RGB）和PNG（深度，uint16）
- 标注：float16（用于高效存储）

标注文件详情

annotations.npz文件包含以下数组：

trajs_2d (T, N, 2)：所有帧中每个点的2D像素坐标
trajs_3d (T, N, 3)：相机坐标系中的3D坐标
visibilities (T, N)：可见性标志（1.0为可见，0.0为不可见）
intrinsics (T, 3, 3)：相机内参矩阵（每帧一个）
extrinsics (T, 4, 4)：相机外参矩阵（世界到相机的变换矩阵）

坐标系说明

2D轨迹：图像像素坐标系（x, y）
3D轨迹：相机坐标系（x, y, z）
外参矩阵：世界到相机的变换矩阵（4×4）

使用说明

数据加载

可通过Python加载序列数据，包括RGB图像、深度图、标注数据和场景信息。

坐标转换

提供了将3D点从相机坐标系转换到世界坐标系的示例代码。

引用要求

使用本数据集时，请引用：

原始的Kubric论文（https://github.com/google-research/kubric）
CoTracker3论文（https://github.com/facebookresearch/co-tracker）
Flock4D数据集（https://huggingface.co/datasets/ZhengGuangze/Flock4D）（如适用）

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，合成数据生成技术为三维点追踪研究提供了可控且丰富的数据源。Kubric_vlbm数据集依托Kubric合成场景生成框架，通过CoTracker3算法对场景中的点云进行密集追踪，构建了包含5,869个序列的大规模数据集。每个序列均包含120帧512×512像素的RGB图像与深度图，并采用Flock4D兼容格式进行组织，确保了数据结构的一致性与高效存储。

特点

该数据集以其高密度点云追踪与多模态标注为显著特点，每个序列涵盖32,768个点的二维与三维轨迹信息，并附带逐帧的相机内外参数及可见性标签。深度图来源于Kubric的度量深度输出，以米为单位提供精确的空间信息。数据以float16格式存储，在保证精度的同时有效控制了存储开销，整体规模约313GB，为三维视觉任务提供了兼具规模与细节的基准资源。

使用方法

使用该数据集时，可通过Python加载序列目录中的注释文件与图像数据。annotations.npz文件包含轨迹、可见性及相机参数等多维数组，用户可结合scene_info.json中的元数据，利用相机外参矩阵将三维点从相机坐标系转换至世界坐标系。该数据集适用于三维重建、运动分析、多视角几何等任务，为算法开发与评估提供了完整的合成数据流水线。

背景与挑战

背景概述

在计算机视觉领域，三维点云追踪与动态场景理解是推动机器人感知、增强现实等应用发展的核心问题。Kubric_vlbm数据集由谷歌研究院与Facebook研究院等机构的研究团队于近年联合构建，其核心研究目标在于通过合成数据生成技术，为密集点云在连续视频帧中的长程运动追踪提供大规模、高精度的基准数据。该数据集基于Kubric合成场景平台与CoTracker3追踪算法生成，包含了超过五千个序列，每个序列提供RGB图像、深度图、二维与三维轨迹以及完整的相机参数，为三维视觉任务提供了丰富的几何与运动信息，显著促进了动态场景分析与点云追踪算法的研究进展。

当前挑战

该数据集旨在解决密集点云在复杂动态场景下的长程、精准运动追踪问题，这一任务面临诸多挑战：真实世界中点云的遮挡、外观变化、运动模糊以及大规模点集的计算复杂度，均对算法的鲁棒性与效率提出了极高要求。在构建过程中，研究团队需克服合成数据与真实数据之间的域差异，确保生成的场景具有足够的物理真实性与多样性；同时，处理海量点云数据（每序列高达32,768个点）的存储、标注与一致性校验，也带来了巨大的工程挑战，需在数据精度与存储效率之间取得平衡。

常用场景

经典使用场景

在计算机视觉领域，三维点跟踪是理解动态场景运动模式的核心任务。Kubric_vlbm数据集通过合成场景生成大量高精度点轨迹，为点跟踪算法的训练与评估提供了标准化基准。该数据集包含RGB图像、深度图以及二维和三维轨迹标注，支持从像素到三维空间的完整运动分析，常用于训练和验证点跟踪模型，如CoTracker3等，以提升模型在复杂运动场景下的鲁棒性和准确性。

解决学术问题

该数据集有效解决了三维视觉中大规模点跟踪数据稀缺的学术难题。传统方法依赖真实世界标注，成本高昂且规模有限，而Kubric_vlbm通过合成技术生成5869个序列，每个序列包含32768个点的120帧轨迹，提供了丰富且可控的运动模式。这促进了点跟踪、运动估计和多视角几何等研究方向的发展，为算法提供了可重复的评估环境，加速了三维动态场景理解的理论突破。

衍生相关工作

基于Kubric_vlbm数据集，衍生了一系列经典研究工作，主要集中在点跟踪和运动分析领域。例如，CoTracker3模型利用该数据优化了长期点跟踪性能，而Flock4D格式的兼容性促进了多数据集联合训练框架的发展。这些工作不仅推动了点跟踪算法的进步，还扩展了合成数据在视觉任务中的应用范围，为后续研究如动态场景重建、时空一致性建模提供了重要的数据基础和实验范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集