RGB-D Object Dataset

github2024-03-12 更新2024-05-31 收录

下载链接：

https://github.com/blackbird71SR/Object-Detection-in-RGBD-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

RGB-D对象数据集是一个包含300个常见家用对象的大型数据集。这些对象被组织成51个类别，使用WordNet超类-子类关系排列（类似于ImageNet）。该数据集使用记录同步和校准的640x480 RGB和深度图像的Kinect风格3D相机录制，帧率为30 Hz。每个对象都放置在转盘上，捕获了一个完整旋转的视频序列。对于每个对象，有3个视频序列，每个序列记录了相机在不同高度安装的情况，以便从不同角度观察对象。

The RGB-D Object Dataset is a large-scale dataset comprising 300 common household objects. These objects are grouped into 51 categories, arranged according to the WordNet hypernym-hyponym relational hierarchy, similar to the ImageNet dataset structure. The dataset was collected using a Kinect-style 3D camera that acquires synchronized and calibrated 640×480 resolution RGB and depth images at a frame rate of 30 Hz. Each object is placed on a turntable, and a video sequence capturing its full 360-degree rotation is collected. For each object, three such video sequences are recorded, with the camera mounted at different heights each time to observe the object from multiple perspectives.

创建时间：

2019-01-20

原始信息汇总

数据集概述

数据集名称

RGB-D Object Dataset

数据集来源

http://rgbd-dataset.cs.washington.edu/index.html

数据集描述

该数据集包含300个常见家用物品，分为51个类别，使用WordNet超类-子类关系组织（类似于ImageNet）。数据集通过Kinect风格的3D相机记录，同步并校准了640x480分辨率的RGB和深度图像，帧率为30 Hz。每个物品放置在转盘上，捕获了完整旋转的视频序列。每个物品有3个视频序列，分别在不同高度记录，以便从不同角度观察物品。

数据集应用

用于改善现实生活中的拥挤图像表示，如人群控制和交通管理。
更好地利用深度信息在噪声图像中进行同时图像检测。
提高侧面视图预测概率。
最终可用于创建先进的3D真实世界物体检测，提供更快和更精确的准确性。

技术挑战

YOLO无法从深度图像中提取相关信息，需转换为HHA图像格式。
难以将RGB和深度图像结合在单一神经网络中训练，需训练两个不同的神经网络，然后结合结果以提高准确性。

使用的技术

python
TensorFlow
keras
numpy
Pandas
YOLO
darkflow
Fast CNN
Google Colab

搜集汇总

数据集介绍

构建方式

RGB-D Object Dataset的构建过程采用了Kinect风格的3D相机，该相机能够以30 Hz的频率同步记录640x480分辨率的RGB图像和深度图像。每个物体被放置在一个转盘上，通过旋转转盘捕捉物体完整旋转的视频序列。每个物体从三个不同的相机高度进行拍摄，以确保从不同角度和地平线视角获取全面的图像数据。这种多视角的采集方式使得数据集能够提供丰富的视觉信息，适用于复杂的物体检测任务。

特点

RGB-D Object Dataset包含了300种常见的家用物品，这些物品被划分为51个类别，类别之间通过WordNet的上下位关系进行组织，类似于ImageNet的结构。数据集不仅提供了RGB图像，还包含了深度图像，这种双重信息为物体检测提供了更丰富的特征。通过多角度拍摄，数据集能够捕捉物体的全方位视图，增强了模型在复杂场景下的检测能力。此外，深度信息的引入使得数据集在处理噪声图像和拥挤场景时表现出色。

使用方法

使用RGB-D Object Dataset时，研究人员可以通过结合RGB图像和深度图像来训练物体检测模型。由于深度图像与RGB图像同步且对齐，模型能够同时利用颜色和深度信息进行更精确的检测。为了处理深度图像，通常需要将其转换为HHA格式，以便更好地提取特征。训练过程中，可以采用双神经网络架构，分别处理RGB和深度图像，最后将结果融合以提高检测精度。数据集适用于开发先进的3D物体检测算法，尤其在需要高精度和快速响应的场景中表现出色。

背景与挑战

背景概述

RGB-D Object Dataset是由华盛顿大学的研究团队于2011年创建的一个大规模数据集，旨在推动基于深度和颜色图像的物体检测研究。该数据集包含300种常见家居物品，分为51个类别，采用与ImageNet相似的WordNet超类-子类关系进行组织。数据采集使用了Kinect风格的3D相机，能够同步记录640x480分辨率的RGB和深度图像，帧率为30 Hz。每个物体被放置在转盘上，通过不同高度的摄像头视角进行旋转拍摄，生成了多角度的视频序列。该数据集在计算机视觉领域具有重要影响力，尤其在3D物体识别和场景理解方面提供了丰富的多模态数据支持。

当前挑战

RGB-D Object Dataset在应用过程中面临多重挑战。首先，深度图像的信息提取较为复杂，传统的YOLO算法难以有效处理，需将其转换为HHA图像格式以提升特征提取效果。其次，RGB图像与深度图像的融合训练存在技术难题，单一神经网络难以同时处理两种模态数据，因此需要分别训练两个神经网络，再通过结果融合来提高检测精度。此外，构建过程中还需解决多视角数据的对齐与同步问题，确保不同角度下的物体信息能够准确匹配。这些挑战不仅反映了多模态数据处理的复杂性，也为未来的研究提供了重要的技术突破方向。

常用场景

经典使用场景

RGB-D Object Dataset在计算机视觉领域中被广泛应用于物体检测与识别任务。该数据集通过提供同步的RGB和深度图像，使得研究者能够在复杂的现实场景中更准确地识别和定位物体。特别是在多视角物体识别和三维重建任务中，该数据集因其丰富的视角信息和深度数据而成为经典选择。

解决学术问题

RGB-D Object Dataset解决了在复杂场景中物体检测的难题，尤其是在拥挤环境下的物体识别问题。通过结合深度信息，该数据集显著提高了在噪声图像中的检测精度，并为三维物体检测提供了更快速和精确的解决方案。此外，该数据集还为多视角物体识别提供了丰富的训练数据，推动了相关领域的研究进展。

衍生相关工作

基于RGB-D Object Dataset，研究者们开发了多种先进的物体检测算法和模型。例如，结合YOLO和深度信息的改进算法显著提高了检测精度。此外，该数据集还催生了许多关于多模态数据融合的研究，推动了计算机视觉领域的技术创新。这些衍生工作不仅提升了物体检测的性能，还为相关应用场景提供了更强大的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集