five

Kubric_vlbm

收藏
Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/ZhengGuangze/Kubric_vlbm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Kubric合成场景生成并转换为Flock4D格式的3D点跟踪序列。每个序列包括RGB图像、深度图、2D/3D轨迹、相机参数和场景元数据。数据集共有5,869个序列,分辨率为512×512像素,每个序列包含32,768个点和120帧。数据格式包括JPEG格式的RGB图像、NPZ格式的深度图以及包含2D/3D轨迹、可见性标志和相机内外参的NumPy压缩文件。数据集还提供了场景元数据的JSON文件。
创建时间:
2026-01-17
原始信息汇总

Kubric CoTracker3 数据集概述

数据集基本信息

  • 数据集名称:Kubric CoTracker3 Dataset
  • 许可协议:Apache-2.0
  • 数据来源:由Kubric合成场景生成,并使用CoTracker3处理
  • 数据格式:Flock4D兼容格式
  • 序列总数:5,869个序列
  • 总大小:约313 GB(未压缩)

数据内容与结构

序列内容

每个序列包含以下内容:

  • RGB图像:JPEG格式,分辨率为512×512像素
  • 深度图:NPZ格式,分辨率为512×512像素,深度值源自Kubric的度量深度输出(单位为米)
  • 2D/3D轨迹:包含点的2D像素坐标和3D相机空间坐标
  • 相机参数:包含相机内参矩阵和外参矩阵(世界到相机的变换矩阵)
  • 场景元数据:包含传感器参数等场景信息

目录结构

每个序列目录结构如下:

{sequence_id}/ ├── rgbs/ # RGB图像文件夹 ├── depths/ # 深度图文件夹 ├── annotations.npz # 标注数据文件 └── scene_info.json # 场景信息文件

技术规格

图像与标注

  • 图像分辨率:512 × 512像素
  • 每序列帧数:120帧
  • 每序列点数:32,768个点
  • 数据类型
    • 图像:JPEG(RGB)和PNG(深度,uint16)
    • 标注:float16(用于高效存储)

标注文件详情

annotations.npz文件包含以下数组:

  • trajs_2d (T, N, 2):所有帧中每个点的2D像素坐标
  • trajs_3d (T, N, 3):相机坐标系中的3D坐标
  • visibilities (T, N):可见性标志(1.0为可见,0.0为不可见)
  • intrinsics (T, 3, 3):相机内参矩阵(每帧一个)
  • extrinsics (T, 4, 4):相机外参矩阵(世界到相机的变换矩阵)

坐标系说明

  • 2D轨迹:图像像素坐标系(x, y)
  • 3D轨迹:相机坐标系(x, y, z)
  • 外参矩阵:世界到相机的变换矩阵(4×4)

使用说明

数据加载

可通过Python加载序列数据,包括RGB图像、深度图、标注数据和场景信息。

坐标转换

提供了将3D点从相机坐标系转换到世界坐标系的示例代码。

引用要求

使用本数据集时,请引用:

  1. 原始的Kubric论文(https://github.com/google-research/kubric)
  2. CoTracker3论文(https://github.com/facebookresearch/co-tracker)
  3. Flock4D数据集(https://huggingface.co/datasets/ZhengGuangze/Flock4D)(如适用)
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,合成数据生成技术为三维点追踪研究提供了可控且丰富的数据源。Kubric_vlbm数据集依托Kubric合成场景生成框架,通过CoTracker3算法对场景中的点云进行密集追踪,构建了包含5,869个序列的大规模数据集。每个序列均包含120帧512×512像素的RGB图像与深度图,并采用Flock4D兼容格式进行组织,确保了数据结构的一致性与高效存储。
特点
该数据集以其高密度点云追踪与多模态标注为显著特点,每个序列涵盖32,768个点的二维与三维轨迹信息,并附带逐帧的相机内外参数及可见性标签。深度图来源于Kubric的度量深度输出,以米为单位提供精确的空间信息。数据以float16格式存储,在保证精度的同时有效控制了存储开销,整体规模约313GB,为三维视觉任务提供了兼具规模与细节的基准资源。
使用方法
使用该数据集时,可通过Python加载序列目录中的注释文件与图像数据。annotations.npz文件包含轨迹、可见性及相机参数等多维数组,用户可结合scene_info.json中的元数据,利用相机外参矩阵将三维点从相机坐标系转换至世界坐标系。该数据集适用于三维重建、运动分析、多视角几何等任务,为算法开发与评估提供了完整的合成数据流水线。
背景与挑战
背景概述
在计算机视觉领域,三维点云追踪与动态场景理解是推动机器人感知、增强现实等应用发展的核心问题。Kubric_vlbm数据集由谷歌研究院与Facebook研究院等机构的研究团队于近年联合构建,其核心研究目标在于通过合成数据生成技术,为密集点云在连续视频帧中的长程运动追踪提供大规模、高精度的基准数据。该数据集基于Kubric合成场景平台与CoTracker3追踪算法生成,包含了超过五千个序列,每个序列提供RGB图像、深度图、二维与三维轨迹以及完整的相机参数,为三维视觉任务提供了丰富的几何与运动信息,显著促进了动态场景分析与点云追踪算法的研究进展。
当前挑战
该数据集旨在解决密集点云在复杂动态场景下的长程、精准运动追踪问题,这一任务面临诸多挑战:真实世界中点云的遮挡、外观变化、运动模糊以及大规模点集的计算复杂度,均对算法的鲁棒性与效率提出了极高要求。在构建过程中,研究团队需克服合成数据与真实数据之间的域差异,确保生成的场景具有足够的物理真实性与多样性;同时,处理海量点云数据(每序列高达32,768个点)的存储、标注与一致性校验,也带来了巨大的工程挑战,需在数据精度与存储效率之间取得平衡。
常用场景
经典使用场景
在计算机视觉领域,三维点跟踪是理解动态场景运动模式的核心任务。Kubric_vlbm数据集通过合成场景生成大量高精度点轨迹,为点跟踪算法的训练与评估提供了标准化基准。该数据集包含RGB图像、深度图以及二维和三维轨迹标注,支持从像素到三维空间的完整运动分析,常用于训练和验证点跟踪模型,如CoTracker3等,以提升模型在复杂运动场景下的鲁棒性和准确性。
解决学术问题
该数据集有效解决了三维视觉中大规模点跟踪数据稀缺的学术难题。传统方法依赖真实世界标注,成本高昂且规模有限,而Kubric_vlbm通过合成技术生成5869个序列,每个序列包含32768个点的120帧轨迹,提供了丰富且可控的运动模式。这促进了点跟踪、运动估计和多视角几何等研究方向的发展,为算法提供了可重复的评估环境,加速了三维动态场景理解的理论突破。
衍生相关工作
基于Kubric_vlbm数据集,衍生了一系列经典研究工作,主要集中在点跟踪和运动分析领域。例如,CoTracker3模型利用该数据优化了长期点跟踪性能,而Flock4D格式的兼容性促进了多数据集联合训练框架的发展。这些工作不仅推动了点跟踪算法的进步,还扩展了合成数据在视觉任务中的应用范围,为后续研究如动态场景重建、时空一致性建模提供了重要的数据基础和实验范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作