five

RGB-D Object Dataset

收藏
github2024-03-12 更新2024-05-31 收录
下载链接:
https://github.com/blackbird71SR/Object-Detection-in-RGBD-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
RGB-D对象数据集是一个包含300个常见家用对象的大型数据集。这些对象被组织成51个类别,使用WordNet超类-子类关系排列(类似于ImageNet)。该数据集使用记录同步和校准的640x480 RGB和深度图像的Kinect风格3D相机录制,帧率为30 Hz。每个对象都放置在转盘上,捕获了一个完整旋转的视频序列。对于每个对象,有3个视频序列,每个序列记录了相机在不同高度安装的情况,以便从不同角度观察对象。

The RGB-D Object Dataset is a large-scale dataset comprising 300 common household objects. These objects are grouped into 51 categories, arranged according to the WordNet hypernym-hyponym relational hierarchy, similar to the ImageNet dataset structure. The dataset was collected using a Kinect-style 3D camera that acquires synchronized and calibrated 640×480 resolution RGB and depth images at a frame rate of 30 Hz. Each object is placed on a turntable, and a video sequence capturing its full 360-degree rotation is collected. For each object, three such video sequences are recorded, with the camera mounted at different heights each time to observe the object from multiple perspectives.
创建时间:
2019-01-20
原始信息汇总

数据集概述

数据集名称

RGB-D Object Dataset

数据集来源

http://rgbd-dataset.cs.washington.edu/index.html

数据集描述

该数据集包含300个常见家用物品,分为51个类别,使用WordNet超类-子类关系组织(类似于ImageNet)。数据集通过Kinect风格的3D相机记录,同步并校准了640x480分辨率的RGB和深度图像,帧率为30 Hz。每个物品放置在转盘上,捕获了完整旋转的视频序列。每个物品有3个视频序列,分别在不同高度记录,以便从不同角度观察物品。

数据集应用

  1. 用于改善现实生活中的拥挤图像表示,如人群控制和交通管理。
  2. 更好地利用深度信息在噪声图像中进行同时图像检测。
  3. 提高侧面视图预测概率。
  4. 最终可用于创建先进的3D真实世界物体检测,提供更快和更精确的准确性。

技术挑战

  1. YOLO无法从深度图像中提取相关信息,需转换为HHA图像格式。
  2. 难以将RGB和深度图像结合在单一神经网络中训练,需训练两个不同的神经网络,然后结合结果以提高准确性。

使用的技术

  • python
  • TensorFlow
  • keras
  • numpy
  • Pandas
  • YOLO
  • darkflow
  • Fast CNN
  • Google Colab
搜集汇总
数据集介绍
main_image_url
构建方式
RGB-D Object Dataset的构建过程采用了Kinect风格的3D相机,该相机能够以30 Hz的频率同步记录640x480分辨率的RGB图像和深度图像。每个物体被放置在一个转盘上,通过旋转转盘捕捉物体完整旋转的视频序列。每个物体从三个不同的相机高度进行拍摄,以确保从不同角度和地平线视角获取全面的图像数据。这种多视角的采集方式使得数据集能够提供丰富的视觉信息,适用于复杂的物体检测任务。
特点
RGB-D Object Dataset包含了300种常见的家用物品,这些物品被划分为51个类别,类别之间通过WordNet的上下位关系进行组织,类似于ImageNet的结构。数据集不仅提供了RGB图像,还包含了深度图像,这种双重信息为物体检测提供了更丰富的特征。通过多角度拍摄,数据集能够捕捉物体的全方位视图,增强了模型在复杂场景下的检测能力。此外,深度信息的引入使得数据集在处理噪声图像和拥挤场景时表现出色。
使用方法
使用RGB-D Object Dataset时,研究人员可以通过结合RGB图像和深度图像来训练物体检测模型。由于深度图像与RGB图像同步且对齐,模型能够同时利用颜色和深度信息进行更精确的检测。为了处理深度图像,通常需要将其转换为HHA格式,以便更好地提取特征。训练过程中,可以采用双神经网络架构,分别处理RGB和深度图像,最后将结果融合以提高检测精度。数据集适用于开发先进的3D物体检测算法,尤其在需要高精度和快速响应的场景中表现出色。
背景与挑战
背景概述
RGB-D Object Dataset是由华盛顿大学的研究团队于2011年创建的一个大规模数据集,旨在推动基于深度和颜色图像的物体检测研究。该数据集包含300种常见家居物品,分为51个类别,采用与ImageNet相似的WordNet超类-子类关系进行组织。数据采集使用了Kinect风格的3D相机,能够同步记录640x480分辨率的RGB和深度图像,帧率为30 Hz。每个物体被放置在转盘上,通过不同高度的摄像头视角进行旋转拍摄,生成了多角度的视频序列。该数据集在计算机视觉领域具有重要影响力,尤其在3D物体识别和场景理解方面提供了丰富的多模态数据支持。
当前挑战
RGB-D Object Dataset在应用过程中面临多重挑战。首先,深度图像的信息提取较为复杂,传统的YOLO算法难以有效处理,需将其转换为HHA图像格式以提升特征提取效果。其次,RGB图像与深度图像的融合训练存在技术难题,单一神经网络难以同时处理两种模态数据,因此需要分别训练两个神经网络,再通过结果融合来提高检测精度。此外,构建过程中还需解决多视角数据的对齐与同步问题,确保不同角度下的物体信息能够准确匹配。这些挑战不仅反映了多模态数据处理的复杂性,也为未来的研究提供了重要的技术突破方向。
常用场景
经典使用场景
RGB-D Object Dataset在计算机视觉领域中被广泛应用于物体检测与识别任务。该数据集通过提供同步的RGB和深度图像,使得研究者能够在复杂的现实场景中更准确地识别和定位物体。特别是在多视角物体识别和三维重建任务中,该数据集因其丰富的视角信息和深度数据而成为经典选择。
解决学术问题
RGB-D Object Dataset解决了在复杂场景中物体检测的难题,尤其是在拥挤环境下的物体识别问题。通过结合深度信息,该数据集显著提高了在噪声图像中的检测精度,并为三维物体检测提供了更快速和精确的解决方案。此外,该数据集还为多视角物体识别提供了丰富的训练数据,推动了相关领域的研究进展。
衍生相关工作
基于RGB-D Object Dataset,研究者们开发了多种先进的物体检测算法和模型。例如,结合YOLO和深度信息的改进算法显著提高了检测精度。此外,该数据集还催生了许多关于多模态数据融合的研究,推动了计算机视觉领域的技术创新。这些衍生工作不仅提升了物体检测的性能,还为相关应用场景提供了更强大的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作