Kubric_vlbm
收藏Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/ZhengGuangze/Kubric_vlbm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Kubric合成场景生成并转换为Flock4D格式的3D点跟踪序列。每个序列包括RGB图像、深度图、2D/3D轨迹、相机参数和场景元数据。数据集共有5,869个序列,分辨率为512×512像素,每个序列包含32,768个点和120帧。数据格式包括JPEG格式的RGB图像、NPZ格式的深度图以及包含2D/3D轨迹、可见性标志和相机内外参的NumPy压缩文件。数据集还提供了场景元数据的JSON文件。
创建时间:
2026-01-17
原始信息汇总
Kubric CoTracker3 数据集概述
数据集基本信息
- 数据集名称:Kubric CoTracker3 Dataset
- 许可协议:Apache-2.0
- 数据来源:由Kubric合成场景生成,并使用CoTracker3处理
- 数据格式:Flock4D兼容格式
- 序列总数:5,869个序列
- 总大小:约313 GB(未压缩)
数据内容与结构
序列内容
每个序列包含以下内容:
- RGB图像:JPEG格式,分辨率为512×512像素
- 深度图:NPZ格式,分辨率为512×512像素,深度值源自Kubric的度量深度输出(单位为米)
- 2D/3D轨迹:包含点的2D像素坐标和3D相机空间坐标
- 相机参数:包含相机内参矩阵和外参矩阵(世界到相机的变换矩阵)
- 场景元数据:包含传感器参数等场景信息
目录结构
每个序列目录结构如下:
{sequence_id}/ ├── rgbs/ # RGB图像文件夹 ├── depths/ # 深度图文件夹 ├── annotations.npz # 标注数据文件 └── scene_info.json # 场景信息文件
技术规格
图像与标注
- 图像分辨率:512 × 512像素
- 每序列帧数:120帧
- 每序列点数:32,768个点
- 数据类型:
- 图像:JPEG(RGB)和PNG(深度,uint16)
- 标注:float16(用于高效存储)
标注文件详情
annotations.npz文件包含以下数组:
trajs_2d(T, N, 2):所有帧中每个点的2D像素坐标trajs_3d(T, N, 3):相机坐标系中的3D坐标visibilities(T, N):可见性标志(1.0为可见,0.0为不可见)intrinsics(T, 3, 3):相机内参矩阵(每帧一个)extrinsics(T, 4, 4):相机外参矩阵(世界到相机的变换矩阵)
坐标系说明
- 2D轨迹:图像像素坐标系(x, y)
- 3D轨迹:相机坐标系(x, y, z)
- 外参矩阵:世界到相机的变换矩阵(4×4)
使用说明
数据加载
可通过Python加载序列数据,包括RGB图像、深度图、标注数据和场景信息。
坐标转换
提供了将3D点从相机坐标系转换到世界坐标系的示例代码。
引用要求
使用本数据集时,请引用:
- 原始的Kubric论文(https://github.com/google-research/kubric)
- CoTracker3论文(https://github.com/facebookresearch/co-tracker)
- Flock4D数据集(https://huggingface.co/datasets/ZhengGuangze/Flock4D)(如适用)
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,合成数据生成技术为三维点追踪研究提供了可控且丰富的数据源。Kubric_vlbm数据集依托Kubric合成场景生成框架,通过CoTracker3算法对场景中的点云进行密集追踪,构建了包含5,869个序列的大规模数据集。每个序列均包含120帧512×512像素的RGB图像与深度图,并采用Flock4D兼容格式进行组织,确保了数据结构的一致性与高效存储。
特点
该数据集以其高密度点云追踪与多模态标注为显著特点,每个序列涵盖32,768个点的二维与三维轨迹信息,并附带逐帧的相机内外参数及可见性标签。深度图来源于Kubric的度量深度输出,以米为单位提供精确的空间信息。数据以float16格式存储,在保证精度的同时有效控制了存储开销,整体规模约313GB,为三维视觉任务提供了兼具规模与细节的基准资源。
使用方法
使用该数据集时,可通过Python加载序列目录中的注释文件与图像数据。annotations.npz文件包含轨迹、可见性及相机参数等多维数组,用户可结合scene_info.json中的元数据,利用相机外参矩阵将三维点从相机坐标系转换至世界坐标系。该数据集适用于三维重建、运动分析、多视角几何等任务,为算法开发与评估提供了完整的合成数据流水线。
背景与挑战
背景概述
在计算机视觉领域,三维点云追踪与动态场景理解是推动机器人感知、增强现实等应用发展的核心问题。Kubric_vlbm数据集由谷歌研究院与Facebook研究院等机构的研究团队于近年联合构建,其核心研究目标在于通过合成数据生成技术,为密集点云在连续视频帧中的长程运动追踪提供大规模、高精度的基准数据。该数据集基于Kubric合成场景平台与CoTracker3追踪算法生成,包含了超过五千个序列,每个序列提供RGB图像、深度图、二维与三维轨迹以及完整的相机参数,为三维视觉任务提供了丰富的几何与运动信息,显著促进了动态场景分析与点云追踪算法的研究进展。
当前挑战
该数据集旨在解决密集点云在复杂动态场景下的长程、精准运动追踪问题,这一任务面临诸多挑战:真实世界中点云的遮挡、外观变化、运动模糊以及大规模点集的计算复杂度,均对算法的鲁棒性与效率提出了极高要求。在构建过程中,研究团队需克服合成数据与真实数据之间的域差异,确保生成的场景具有足够的物理真实性与多样性;同时,处理海量点云数据(每序列高达32,768个点)的存储、标注与一致性校验,也带来了巨大的工程挑战,需在数据精度与存储效率之间取得平衡。
常用场景
经典使用场景
在计算机视觉领域,三维点跟踪是理解动态场景运动模式的核心任务。Kubric_vlbm数据集通过合成场景生成大量高精度点轨迹,为点跟踪算法的训练与评估提供了标准化基准。该数据集包含RGB图像、深度图以及二维和三维轨迹标注,支持从像素到三维空间的完整运动分析,常用于训练和验证点跟踪模型,如CoTracker3等,以提升模型在复杂运动场景下的鲁棒性和准确性。
解决学术问题
该数据集有效解决了三维视觉中大规模点跟踪数据稀缺的学术难题。传统方法依赖真实世界标注,成本高昂且规模有限,而Kubric_vlbm通过合成技术生成5869个序列,每个序列包含32768个点的120帧轨迹,提供了丰富且可控的运动模式。这促进了点跟踪、运动估计和多视角几何等研究方向的发展,为算法提供了可重复的评估环境,加速了三维动态场景理解的理论突破。
衍生相关工作
基于Kubric_vlbm数据集,衍生了一系列经典研究工作,主要集中在点跟踪和运动分析领域。例如,CoTracker3模型利用该数据优化了长期点跟踪性能,而Flock4D格式的兼容性促进了多数据集联合训练框架的发展。这些工作不仅推动了点跟踪算法的进步,还扩展了合成数据在视觉任务中的应用范围,为后续研究如动态场景重建、时空一致性建模提供了重要的数据基础和实验范式。
以上内容由遇见数据集搜集并总结生成



