robbyant/mdm_depth
收藏Hugging Face2026-04-17 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/robbyant/mdm_depth
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- depth-estimation
language:
- en
tags:
- 3D
- 3d
- depth
- robotics
pretty_name: LingBot-Depth Dataset
---
# LingBot-Depth Dataset
Self-curated RGB-D dataset for training [LingBot-Depth](https://github.com/Robbyant/lingbot-depth), a masked depth modeling approach ([arxiv:2601.17895](https://huggingface.co/papers/2601.17895)). Each sample contains an RGB image, raw sensor depth, and ground truth depth.

**Total size:** 2.71 TB
**Depth scale:** millimeters (mm), stored as 16-bit PNG
**License:** [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/)
---
## Sub-datasets
| Name | Description | Samples |
|------|-------------|--------:|
| **RobbyReal** | Real-world indoor scenes captured with multiple RGB-D cameras | 1,400,000 |
| **RobbyVla** | Real-world data collected during VLA (Vision-Language-Action) robot manipulation tasks | 580,960 |
| **RobbySim** | Simulated data rendered from two camera viewpoints | 999,264 |
| **RobbySimVal** | Validation split of simulated data | 38,976 |
| **Total** | | **3,019,200** |
---
## Directory Structure
### RobbyReal
```
RobbyReal/
└── <scene_id>/ # e.g. 00001_01_room
├── orbbec_335_<seq>/
│ ├── color/ # RGB images
│ ├── gtdepth/ # Ground truth depth
│ ├── rawdepth/ # Raw sensor depth
│ └── intrinsic.txt
├── orbbec_335L_<seq>/
│ ├── color/
│ ├── gtdepth/
│ ├── rawdepth/
│ └── intrinsic.txt
├── realsense_D415_<seq>/
│ ├── color/
│ ├── gtdepth/
│ ├── rawdepth/
│ └── intrinsic.txt
├── realsense_D435_<seq>/
│ ├── color/
│ ├── gtdepth/
│ ├── rawdepth/
│ └── intrinsic.txt
└── realsense_D455_<seq>/
├── color/
├── gtdepth/
├── rawdepth/
└── intrinsic.txt
```
### RobbyVla
Data collected during VLA robot manipulation tasks on two robot platforms.
```
RobbyVla/
├── franka/ # Franka robot arm
│ └── <seq>/
│ ├── left_realsense405/
│ │ ├── color/
│ │ ├── gtdepth/
│ │ ├── rawdepth/
│ │ └── intrinsic.txt
│ └── right_realsense405/
│ ├── color/
│ ├── gtdepth/
│ ├── rawdepth/
│ └── intrinsic.txt
└── ur7e/ # UR7e robot arm
└── <seq>/
├── left_realsense405/
│ ├── color/
│ ├── gtdepth/
│ ├── rawdepth/
│ └── intrinsic.txt
└── right_realsense405/
├── color/
├── gtdepth/
├── rawdepth/
└── intrinsic.txt
```
### RobbySim
Simulated data rendered from two camera viewpoints: `object_view` and `rrt_view`.
```
RobbySim/
├── intrinsics.txt
├── object_view/
│ └── <scene_id>/<cam_id>/ # e.g. xxxx/00, xxxx/01
│ ├── 0001_cam0_left.jpg # RGB image
│ ├── 0001_cam0_depth.png # Ground truth depth
│ └── 0001_cam0_rmd2c.png # Raw depth
└── rrt_view/
└── <scene_id>/<cam_id>/
├── 0001_cam0_left.jpg
├── 0001_cam0_depth.png
└── 0001_cam0_rmd2c.png
```
### RobbySimVal
Validation split of simulated data.
```
RobbySimVal/
└── val_view/
└── <scene_id>/<cam_id>/ # e.g. xxxx/00, xxxx/01
├── intrinsics.txt
├── 0001_cam0_rgb.left.jpg # RGB image
├── 0001_cam0_depth_left.png # Ground truth depth
└── 0001_cam0_rawdepth.left.png # Raw depth
```
---
## File Description
| File/Folder | Description |
|-------------|-------------|
| `color/` / `*_rgb*.jpg` | RGB images |
| `gtdepth/` / `*_depth*.png` | Ground truth depth maps (16-bit PNG, unit: mm) |
| `rawdepth/` / `*_rawdepth*.png` / `*_rmd2c*.png` | Raw depth from sensor before post-processing (16-bit PNG, unit: mm) |
| `intrinsic.txt` / `intrinsics.txt` | Camera intrinsic parameters |
提供机构:
robbyant
搜集汇总
数据集介绍

构建方式
在三维视觉与机器人感知领域,高质量RGB-D数据的获取是推动深度估计模型发展的关键。LingBot-Depth数据集通过精心设计的采集流程构建而成,其数据来源涵盖真实世界与仿真环境两大范畴。真实数据部分借助多款主流RGB-D传感器,如Orbbec 335系列与Intel RealSense D400系列,在多样化室内场景及机器人操作任务中系统捕获;仿真数据则通过预设的双摄像机视角渲染生成,确保了场景的多样性与数据的可控性。整个构建过程严格遵循标准化目录结构,为每个样本同步提供RGB图像、原始传感器深度及经过处理的真实深度图,并附有相机内参文件,形成了规模达3,019,200个样本、总量约2.71 TB的综合性深度数据集。
特点
该数据集的核心特征在于其多源异构的数据构成与精细的标注体系。数据集由四个子集有机整合:RobbyReal专注于静态室内场景的多传感器采集,RobbyVla捕捉了机器人执行视觉-语言-动作任务时的动态操作环境,而RobbySim与RobbySimVal则提供了高度可控的仿真数据及其验证分割。所有深度图均以毫米为单位,存储为16位PNG格式,在保留高精度细节的同时确保了数据的紧凑性。尤为突出的是,每个数据样本不仅包含对齐的RGB图像与真实深度,还提供了原始的传感器深度数据,这为研究深度感知的完整流程、传感器噪声建模以及深度补全算法提供了不可多得的对比基准。
使用方法
为便于研究与应用,数据集已按清晰的结构进行组织。使用者可根据研究目标选择相应的子集:RobbyReal与RobbyVla适用于真实世界深度估计与机器人感知模型的训练与验证;RobbySim则适合用于仿真环境下的算法开发与预训练。数据加载时,需依据提供的目录结构,同步读取同一序列下的彩色图像、真实深度图、原始深度图以及内参文件。深度图可直接作为监督信号用于训练深度估计模型,而原始深度与真实深度的配对则为分析传感器特性、开发去噪与补全算法提供了直接依据。数据集遵循CC BY-NC-SA 4.0许可,适用于非商业性的学术研究和技术探索。
背景与挑战
背景概述
在计算机视觉与机器人学领域,深度估计是感知环境三维结构的关键技术,对于自主导航、场景理解与机器人操作等任务具有基础性意义。LingBot-Depth数据集由研究团队于2024年构建,旨在支持掩码深度建模方法(Masked Depth Modeling)的训练与验证。该数据集汇集了真实世界室内场景、机器人操作任务以及仿真环境的多视角RGB-D数据,总量超过300万样本,规模达2.71TB。通过整合多种RGB-D传感器(如Orbbec、RealSense系列)及双机器人平台(Franka、UR7e)的采集数据,该数据集致力于解决复杂环境中深度信息的精确恢复与泛化问题,为视觉-语言-动作(VLA)机器人系统及深度自监督学习提供了重要的数据基础。
当前挑战
深度估计领域长期面临复杂光照、透明表面、反射材质及遮挡等场景下深度信息恢复的固有难题,这些挑战对模型的鲁棒性与泛化能力提出了较高要求。在数据集构建过程中,研究团队需克服多传感器数据同步与标定、真实场景大规模采集的耗时成本、以及仿真数据与真实数据之间的域差异等问题。此外,确保地面真实深度(gtdepth)的精确性涉及繁琐的后处理与人工校验,而海量数据的存储、管理与标准化格式统一亦构成了工程上的显著挑战。
常用场景
经典使用场景
在计算机视觉与机器人感知领域,深度估计是理解三维场景结构的关键任务。LingBot-Depth数据集以其大规模、多模态的RGB-D数据,为训练先进的掩码深度建模方法提供了核心资源。该数据集最经典的使用场景在于支持自监督或弱监督的深度预测模型训练,特别是针对室内环境与机器人操作任务。通过提供高质量的RGB图像、原始传感器深度及真实深度标注,研究者能够构建鲁棒的深度估计网络,有效处理复杂光照、遮挡及传感器噪声带来的挑战,推动单目或双目深度估计技术的边界。
解决学术问题
深度估计研究长期面临真实世界数据标注成本高昂、传感器噪声干扰以及泛化能力不足等难题。LingBot-Depth数据集通过整合真实世界室内场景、机器人操作任务以及高保真仿真数据,系统性地解决了这些学术瓶颈。它使得研究者能够深入探索深度补全、深度去噪、跨域适应等关键问题,并为视觉-语言-动作(VLA)机器人系统的三维感知提供了可靠基准。该数据集的意义在于降低了高质量深度数据获取的门槛,促进了自监督学习在深度估计领域的应用,对机器人自主导航、场景理解等研究方向产生了深远影响。
衍生相关工作
围绕LingBot-Depth数据集,已衍生出一系列具有影响力的经典研究工作。其核心贡献是催生了同名掩码深度建模方法LingBot-Depth,该方法借鉴了掩码图像建模的思想,在深度估计任务上取得了显著进展。该数据集进一步激发了关于多传感器融合、跨模态表示学习以及仿真到真实(Sim2Real)迁移的研究浪潮。许多后续工作利用其丰富的子数据集,探索了在有限标注下如何提升深度模型的泛化性能,以及如何将深度感知更好地集成到具身智能与机器人操作系统中,推动了整个三维视觉社区的算法创新。
以上内容由遇见数据集搜集并总结生成



