garrying/RGBD-GSD
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/garrying/RGBD-GSD
下载链接
链接失效反馈官方服务:
资源简介:
RGBD-GSD是第一个大规模RGB-D玻璃表面检测数据集,包含3,009个RGB-D图像,涵盖了广泛的真实世界玻璃表面类别。每个图像都配有精确的二进制分割掩码和深度图。深度图通过3D传感器捕获,其中的空白(缺失)区域对应于玻璃表面,为RGB图像提供了互补的检测线索。数据集分为训练集(2,400个样本)和测试集(609个样本)。每个样本包括图像ID、RGB图像、分割掩码和深度图。
RGBD-GSD is the first large-scale RGB-D glass surface detection dataset, containing 3,009 RGB-D images across a wide range of real-world glass surface categories. Each image is paired with a precise binary segmentation mask and a depth map. Depth maps are captured with 3D sensors; blank (missing) regions in depth correspond to glass surfaces, providing a complementary detection cue to the RGB image. The dataset is split into a training set (2,400 samples) and a test set (609 samples). Each sample includes an image ID, RGB image, segmentation mask, and depth map.
提供机构:
garrying
搜集汇总
数据集介绍

构建方式
RGBD-GSD是首个面向玻璃表面检测的大规模RGB-D数据集,由Lin等人在AAAI 2025中提出。该数据集包含3,009张真实世界场景的RGB-D图像,每张图像均配有精确的二值分割掩膜和深度图。深度图通过3D传感器捕获,其中缺失区域恰对应于玻璃表面,为RGB图像提供了互补的检测线索。数据集被划分为2,400张训练样本和609张测试样本,每个样本包含图像ID、RGB图像、分割掩膜及深度图四个字段,原始文件以ID命名的JPEG和PNG格式分别存储于images、masks和depths子目录中。
使用方法
用户可通过HuggingFace的datasets库便捷加载,仅需一行代码即可获取完整数据集或指定训练/测试子集。每个样本以字典形式返回,包含image_id字符串及三个PIL图像对象,便于直接可视化与模型输入。为适配传统文件处理流程,数据集还提供parquet_to_raw.py辅助脚本,支持一键恢复原始目录结构,或按需导出特定子集至自定义路径。加载后的图像数据可直接用于构建RGB-D跨模态分割模型,深度图缺失区域可作为玻璃位置的监督信号,实现端到端训练。
背景与挑战
背景概述
玻璃作为一种透明且反光的材质,在计算机视觉领域中构成了一项独特的感知难题。传统的语义分割模型往往在玻璃表面检测任务上表现不佳,原因在于玻璃区域缺乏稳定的视觉纹理,其外观极易受到背景和环境光照的影响。为突破这一瓶颈,Jiaying Lin、Yuen-Hei Yeung、Shuquan Ye与Rynson W. H. Lau等研究人员于2025年在AAAI会议上提出了RGBD-GSD数据集。该数据集由香港城市大学等机构主导构建,首次大规模地将RGB图像与深度信息融合用于玻璃表面检测,共计包含3009张真实场景下的RGB-D图像,每张图像均配有精确的二值分割掩码和深度图。这一开创性工作为场景理解与透明物体感知领域提供了关键的基础资源,推动了基于跨模态信息融合的玻璃检测研究进程。
当前挑战
RGBD-GSD数据集所解决的核心挑战在于玻璃表面的高透明度和强反射性,这使得基于单目RGB图像的传统分割方法因缺少明确边界和纹理特征而频繁失效。深度数据的引入成为关键突破口——玻璃表面通常导致深度传感器产生空值区域,从而作为一种互补的检测线索。然而,在数据构建过程中,课题组同样面临严峻挑战:深度图中空值区域的噪声处理、不同场景下光照变化的鲁棒性、以及精确标注玻璃区域边界的高人工成本,均对数据质量和模型泛化能力提出了极高要求。此外,如何有效设计跨模态融合框架,使RGB与深度线索互为补充而非彼此干扰,亦是该领域亟待攻克的技术难题。
常用场景
经典使用场景
在计算机视觉领域,玻璃表面检测因其透明、反光特性而长期面临严峻挑战。RGBD-GSD作为首个大规模RGB-D玻璃表面检测数据集,为这一难题提供了系统性的解决方案。该数据集共包含3,009组RGB-D图像对,覆盖了室内外多种真实场景中的玻璃表面类型,如窗户、镜子、玻璃门等。每组样本精确配准了二值分割掩码与深度图。经典使用方式为以RGB图像为主、深度图为辅进行多模态语义分割,通过深度图中玻璃区域特有的像素缺失信号辅助RGB纹理信息,实现对透明物体边界的精确预测,显著提升了传统仅依赖RGB信息的分割性能。
解决学术问题
该数据集精准回应了透明物体感知这一长期困扰计算机视觉领域的学术难题。传统语义分割数据集如ADE20K、COCO-Stuff鲜少专门标注玻璃区域,且单纯依赖RGB图像时,玻璃因其透明、反光特性极易被误分类为背景或反射内容。RGBD-GSD通过引入深度模态揭示了玻璃表面独特的物理属性,即深度传感器在玻璃区域常产生无效测量值,这一鲁棒线索有力弥补了RGB模态的特征盲区。该数据集的提出推动了从纯RGB到RGB-D协同感知的范式转变,为研究跨模态特征融合、缺失深度信息建模、透明物体边界细化等课题提供了标准化评估平台。
实际应用
基于RGBD-GSD训练出的玻璃表面检测模型在多个实际场景中展现显著应用价值。在智能机器人领域,机器人导航与抓取系统需准确辨识玻璃门窗以避免碰撞或抓取失败,深度辅助检测大幅提升了复杂室内环境下的安全性。在增强现实应用中,精确的玻璃区域分割是实现虚拟物体与现实场景正确渲染叠加的前提,尤其在商场橱窗、镜面等常见场景中至关重要。此外,自动驾驶车辆对玻璃路障、建筑幕墙的感知能力直接影响路径规划可靠性,RGBD-GSD为这类安全攸关系统提供了关键训练数据支撑,推动透明物体感知从实验室走向产业化落地。
数据集最近研究
最新研究方向
RGBD-GSD作为首个大规模RGB-D玻璃表面检测数据集,为透明物体感知这一长期困扰计算机视觉界的难题开辟了全新路径。当前前沿研究聚焦于挖掘RGB与深度模态间的互补性——深度图中玻璃区域的空洞缺失恰恰构成了检测的天然线索,研究者正通过跨模态上下文挖掘(如AAAI 2025提出的方法)来融合多层级视觉特征,突破透明材质难以分割的瓶颈。该数据集紧密关联智能机器人导航、增强现实交互及工业玻璃质检等热点应用场景,为从传统2D检测迈向稳健的3D环境理解提供了关键数据基石,其提出的评测范式正推动透明物体感知从实验室走向真实世界的部署。
以上内容由遇见数据集搜集并总结生成



