大规模多视角RGBD视觉功能学习数据集

Name: 大规模多视角RGBD视觉功能学习数据集
Creator: 默多克大学信息科技学院，珀斯，澳大利亚 2科学学院，埃迪斯科文大学，珀斯，澳大利亚
Published: 2023-09-13 09:18:40
License: 暂无描述

arXiv2023-09-13 更新2024-06-21 收录

下载链接：

https://sites.google.com/view/afaqshah/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘大规模多视角RGBD视觉功能学习数据集’，由默多克大学和埃迪斯科文大学联合创建。数据集包含47210张RGBD图像，涵盖37种室内物品类别，并标注了15种视觉功能类别。创建过程中，从华盛顿RGDB多视角物体数据集中收集原始RGBD图像，并通过LabelMe工具进行标注。该数据集主要应用于机器人和智能机器的视觉功能理解和学习，旨在解决智能交互中对物体功能的识别、检测和分割问题。

This dataset, named the Large-scale Multi-view RGBD Visual Functional Learning Dataset, was co-developed by Murdoch University and Edith Cowan University. It contains 47,210 RGBD images, covering 37 categories of indoor objects and annotated with 15 visual functional categories. During the dataset creation process, raw RGBD images were collected from the Washington RGBD Multi-view Object Dataset, and annotations were carried out using the LabelMe tool. This dataset is primarily applied to visual functional understanding and learning for robotics and intelligent machines, with the goal of addressing the challenges of object function recognition, detection and segmentation in intelligent interactions.

提供机构：

默多克大学信息科技学院，珀斯，澳大利亚 2科学学院，埃迪斯科文大学，珀斯，澳大利亚

创建时间：

2022-03-26

搜集汇总

数据集介绍

构建方式

在视觉功能学习领域，构建高质量数据集是推动算法发展的基石。该数据集基于华盛顿RGBD层次化多视角对象数据集，从中精选了37类室内常见物体，涵盖47210幅RGBD图像。通过Kinect风格3D相机采集，物体置于转台上以30°、45°和60°三个视角进行旋转拍摄，确保了多视角覆盖。为避免帧间冗余，采用每5帧抽取一帧的策略进行标注。借助LabelMe图形工具，由30名经过培训的标注者对物体功能区域进行多边形标注，并映射至深度图像，每类物体由两名标注者独立完成，最终由专家审核，确保了标注的一致性与准确性。

使用方法

该数据集适用于视觉功能分割与识别两大核心任务。在功能分割任务中，可将数据集按80%、10%、10%的比例划分为训练、验证与测试集，测试集包含训练中未见的物体形状，以评估模型泛化能力。采用U-Net、PSPNet及Vision Transformer等先进分割网络进行训练，利用频率加权交并比等指标评估性能。对于多标签功能识别任务，可使用VGG-16、ResNet-50及InceptionV3等分类网络，通过编码后的功能标签进行监督学习，无需数据增强即可达到较高识别准确率。数据集公开可用，为研究者提供了标准化基准，推动视觉功能学习算法的创新与优化。

背景与挑战

背景概述

在计算机视觉领域，物体的物理与纹理属性已被广泛研究以支持识别、检测与分割任务。然而，对于智能机器人与自主系统而言，仅理解物体的静态属性不足以实现自然交互，它们需要进一步推断物体的功能可能性，即视觉可供性。为此，由Murdoch大学与Edith Cowan大学的研究人员于2023年联合创建的大规模多视角RGBD视觉功能学习数据集应运而生。该数据集包含37类室内物体的47210幅RGBD图像，标注了15种视觉可供性类别，旨在解决视觉可供性理解中数据稀缺的核心问题，为深度学习模型提供丰富的训练资源，推动机器人交互与场景理解研究的发展。

当前挑战

视觉可供性学习面临多重挑战：其一，可供性识别与分割任务具有内在复杂性，同一物体可能支持多种功能，而不同物体可能共享相似的可供性，这种一对多与多对一的对应关系要求模型具备强大的泛化与推理能力。其二，数据构建过程涉及主观性与规模化的平衡，研究人员需基于现有文献定义可供性标签，并通过多视角采集与人工标注确保数据的多样性与一致性，同时克服标注成本高、视角变化大以及类别不平衡等实际困难。

常用场景

经典使用场景

在计算机视觉与机器人交互领域，视觉可供性学习旨在使机器理解物体支持何种功能交互。该数据集通过提供大规模多视角RGBD图像及精细标注，成为训练深度神经网络进行可供性分割与识别的基准平台。其经典使用场景集中于模型在复杂室内环境中预测物体部件的功能属性，例如识别咖啡杯的“可抓握”与“液体容纳”区域，或区分剪刀的“切割”与“抓握”部位。多视角数据特性使模型能够学习视角不变的功能表征，为机器人自主操作提供关键视觉认知基础。

解决学术问题

该数据集有效应对了视觉可供性研究中的核心挑战。传统数据集规模有限且多为单视角，难以支撑数据驱动的深度学习方法。本数据集通过提供超过四万七千张多视角RGBD图像，覆盖37类物体与15种可供性标签，解决了可供性学习中的数据稀缺问题。其标注体系捕捉了同一物体的多重功能对应关系，以及不同物体间的功能相似性，为探索可供性的跨类别泛化与细粒度理解提供了实验基础。该资源显著推动了可供性分割与识别任务的算法发展，并为视觉-功能关联建模建立了新的基准。

实际应用

在实际应用层面，该数据集为服务机器人、智能家居及工业自动化系统提供了关键的学习资源。基于此数据集训练的模型能够使机器人理解日常物体的功能部位，从而执行更安全、更精准的抓取、操作与使用任务。例如，机器人可依据“可倾倒”可供性正确操作水壶，或通过“可打开”标识处理食品罐。在辅助机器人或智能假肢领域，系统可推断物体与人的交互方式，提升人机协作的自然性与效率。数据集的多视角特性进一步增强了模型在真实非结构化环境中的鲁棒性。

数据集最近研究