mdm_depth

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/robbyant/mdm_depth

下载链接

链接失效反馈

官方服务：

资源简介：

LingBot-Depth 是一个自整理的 RGB-D 数据集，主要用于训练 LingBot-Depth（一种掩码深度建模方法）。该数据集包含 RGB 图像、原始传感器深度和真实深度数据，深度值以毫米为单位存储为 16 位 PNG 格式。数据集总大小为 2.71 TB，包含 3,019,200 个样本，分为四个子集：RobbyReal（真实室内场景，140 万样本）、RobbyVla（机器人操作任务数据，58 万样本）、RobbySim（模拟渲染数据，99.9 万样本）和 RobbySimVal（模拟验证集，3.8 万样本）。每个子集都有明确的目录结构，包含颜色图像、真实深度、原始深度和相机内参文件。数据集适用于深度估计等 3D 视觉任务，采用 CC BY-NC-SA 4.0 许可协议。

创建时间：

2026-03-21

原始信息汇总

LingBot-Depth 数据集概述

数据集基本信息

数据集名称: LingBot-Depth Dataset
主要用途: 用于训练 LingBot-Depth（一种掩码深度建模方法）
核心内容: 每个样本包含一张RGB图像、原始传感器深度图和真实深度图
总数据量: 2.71 TB
总样本数: 3,019,200
深度图格式与单位: 16位PNG格式，单位为毫米 (mm)
许可证: CC BY-NC-SA 4.0
任务类别: 深度估计
标签: 3D
语言: 英文

子数据集构成

子数据集名称	描述	样本数量
RobbyReal	使用多个RGB-D相机采集的真实世界室内场景数据	1,400,000
RobbyVla	在VLA（视觉-语言-动作）机器人操作任务期间收集的真实世界数据	580,960
RobbySim	从两个相机视角渲染的模拟数据	999,264
RobbySimVal	模拟数据的验证集	38,976
总计		3,019,200

数据组织结构与文件说明

1. RobbyReal

结构: 按场景ID组织，每个场景下包含多个相机序列（如 orbbec_335、realsense_D415 等）。
每个相机序列包含:
- color/: RGB图像
- gtdepth/: 真实深度图
- rawdepth/: 原始传感器深度图
- intrinsic.txt: 相机内参文件

2. RobbyVla

结构: 按机器人平台（franka 或 ur7e）和序列组织。
每个序列包含左右相机（left_realsense405 和 right_realsense405）数据:
- color/: RGB图像
- gtdepth/: 真实深度图
- rawdepth/: 原始传感器深度图
- intrinsic.txt: 相机内参文件

3. RobbySim

结构: 包含两个视角（object_view 和 rrt_view）的数据，按场景ID和相机ID组织。
每个相机目录包含:
- *_cam0_left.jpg: RGB图像
- *_cam0_depth.png: 真实深度图
- *_cam0_rmd2c.png: 原始深度图
根目录: 包含 intrinsics.txt 文件。

4. RobbySimVal

结构: 验证集数据，位于 val_view 下，按场景ID和相机ID组织。
每个相机目录包含:
- intrinsics.txt: 相机内参文件
- *_cam0_rgb.left.jpg: RGB图像
- *_cam0_depth_left.png: 真实深度图
- *_cam0_rawdepth.left.png: 原始深度图

关键文件类型总结

RGB图像: 位于 color/ 文件夹或文件名包含 *_rgb*.jpg、*_left.jpg。
真实深度图: 位于 gtdepth/ 文件夹或文件名包含 *_depth*.png，为16位PNG，单位毫米。
原始深度图: 位于 rawdepth/ 文件夹或文件名包含 *_rawdepth*.png、*_rmd2c*.png，为16位PNG，单位毫米。
相机内参文件: intrinsic.txt 或 intrinsics.txt。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，深度估计任务的进展离不开高质量数据集的支撑。LingBot-Depth数据集的构建采用了多源数据融合策略，通过整合真实世界采集与仿真环境渲染两种途径，确保了数据的多样性与规模。真实数据部分（RobbyReal与RobbyVla）利用Orbbec及RealSense系列深度相机在室内场景与机器人操作任务中捕获，涵盖了不同视角与光照条件；仿真数据部分（RobbySim与RobbySimVal）则通过虚拟相机视角生成，提供了精确的深度真值。所有深度图均以毫米为单位存储为16位PNG格式，并附带相机内参文件，形成了结构清晰、层次分明的目录体系。

特点

该数据集在深度估计领域展现出鲜明的特色，其核心在于同时提供了原始传感器深度与经过处理的真实深度标签，这为研究深度补全、传感器噪声建模及跨模态学习提供了宝贵资源。数据规模达到3,019,200个样本，总量约2.71TB，覆盖了真实室内环境、机器人操作场景以及高保真仿真视图，实现了真实与虚拟数据的有机结合。多相机型号（如Orbbec 335、RealSense D415/D455等）与多机器人平台（Franka、UR7e）的纳入，进一步增强了数据的设备多样性与场景泛化能力，为模型训练与评估奠定了坚实基础。

使用方法

针对深度估计模型的开发与验证，该数据集提供了明确的使用路径。研究人员可依据子数据集划分，分别加载RGB图像、原始深度图及真实深度图，并利用内参文件进行相机标定。数据集支持端到端的监督学习，通过对比原始与真实深度，可训练模型进行深度修复或去噪；亦可用于自监督或掩码深度建模任务，如LingBot-Depth所采用的掩码预测方法。仿真数据部分（RobbySimVal）专门作为验证集，便于模型性能的客观评估。数据以标准目录结构组织，用户可按场景序列逐级访问，灵活适配不同的训练框架与实验需求。

背景与挑战

背景概述

深度估计作为计算机视觉领域的核心任务，旨在从二维图像中恢复三维场景的几何信息，对于机器人导航、增强现实和自动驾驶等应用至关重要。LingBot-Depth数据集由研究团队于2024年创建，旨在支持掩码深度建模方法的训练，其核心研究问题聚焦于通过自监督学习提升深度估计的精度与鲁棒性。该数据集融合了真实世界与仿真环境的多源数据，涵盖了室内场景与机器人操作任务，为视觉-语言-动作模型的发展提供了丰富的RGB-D配对样本，显著推动了深度感知技术在具身智能领域的进步。

当前挑战

在深度估计领域，模型需克服真实场景中光照变化、遮挡以及传感器噪声带来的干扰，以生成精确且一致的深度图。LingBot-Depth数据集构建过程中面临多重挑战：其一，大规模真实数据的采集需协调多种RGB-D相机，确保时空对齐与标注一致性；其二，仿真数据与真实数据的域差异要求精细的渲染与校准策略，以维持数据的逼真度与实用性；其三，处理高达2.71TB的多模态数据，涉及高效的存储、预处理与质量控制流程，这些挑战共同考验着数据集的可靠性与泛化能力。

常用场景

经典使用场景

在计算机视觉与机器人感知领域，深度估计是理解三维场景的关键技术。LingBot-Depth数据集以其大规模、多模态的RGB-D数据，为训练掩码深度建模方法提供了核心资源。该数据集通过融合真实世界室内场景、机器人操作任务以及仿真渲染数据，构建了覆盖广泛视觉条件的训练环境，使得模型能够学习从RGB图像到精确深度图的映射关系，尤其在处理复杂光照、遮挡和动态物体时展现出稳健性能。

解决学术问题

该数据集有效应对了深度估计研究中数据稀缺与质量不均的挑战。通过提供包含原始传感器深度与真值深度的大规模配对样本，它支持了监督与自监督学习范式的探索，促进了深度补全、深度去噪和跨模态对齐等关键问题的研究。其多设备、多场景的数据采集方式，为模型泛化能力与鲁棒性评估设立了新基准，推动了视觉几何理解与感知算法的发展。

衍生相关工作

围绕该数据集，学术界涌现了多项经典研究。掩码深度建模方法通过利用数据集的原始与真值深度对比，提出了创新的预训练策略；后续工作进一步探索了跨域迁移学习，利用仿真数据增强真实场景下的泛化性能。这些研究不仅深化了自监督深度估计的理论框架，也为多传感器融合、机器人终身学习等方向提供了可扩展的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集