GlassNICOLDataset

Name: GlassNICOLDataset
Creator: 斯洛伐克科学院数学、物理与信息学院，汉堡大学信息学院知识技术组
Published: 2025-03-06 18:51:04
License: 暂无描述

arXiv2025-03-06 更新2025-03-08 收录

下载链接：

https://gajdosech2.github.io/GlassNICOLDataset/

下载链接

链接失效反馈

官方服务：

资源简介：

GlassNICOLDataset是一个由NICOL人形机器人平台上捕获的现实世界数据集组成的新型玻璃对象数据集。该数据集包含7850张图片，记录了五种不同摄像头的视角。数据集通过三个阶段的场景扫描进行自动标注，生成深度测量标签。它旨在解决机器人视觉在识别透明玻璃对象方面的挑战，特别是为开放式词汇对象检测器在遇到透明物体时的性能下降问题提供解决方案。

GlassNICOLDataset is a novel glass object dataset consisting of real-world data captured on the NICOL humanoid robot platform. This dataset contains 7850 images, capturing viewpoints from five different cameras. The dataset is automatically annotated through three-stage scene scanning to generate depth measurement labels. It aims to address the challenges in transparent glass object recognition for robot vision, specifically providing solutions to the performance degradation issue of open-vocabulary object detectors when encountering transparent objects.

提供机构：

斯洛伐克科学院数学、物理与信息学院，汉堡大学信息学院知识技术组

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

GlassNICOLDataset是一个针对透明物体检测的全新真实世界数据集，该数据集通过RGB-D传感器采集数据，并采用自动化标签生成流程来减少人工标注的工作量。数据集收集过程包括三个阶段：首先捕获清洁的玻璃场景，然后在玻璃上放置3D打印的绿色盖子进行高度测量，最后用粉笔喷雾替换玻璃，使其不透明以获取深度地面实况几何形状。通过这种方式，数据集提供了玻璃分类和检测标签、分割掩码以及地面实况深度测量。

特点

GlassNICOLDataset的特点在于其真实世界数据，以及为透明物体检测设计的自动化标签生成流程。数据集包含7850张图像，记录了五个不同摄像头的视角。数据集的设计考虑到了各种遮挡程度、不同的光照条件和桌面纹理的变化。此外，数据集还包含六种不同的玻璃类型，每种类型都有自己的类别。数据集的自动化标签生成流程利用深度测量、颜色验证和物体检测来创建准确的分割掩码和边界框。

使用方法

GlassNICOLDataset的使用方法包括以下步骤：首先，通过RGB-D传感器捕获场景数据。然后，使用自动化标签生成流程对数据集进行标注。接下来，使用数据集训练对象检测器，例如RTMDet。最后，将训练好的检测器与物理机器人集成，以便在真实世界场景中执行任务，例如机器人调酒任务。在机器人调酒任务中，用户可以发出命令，机器人会根据命令识别正确的酒瓶和玻璃杯，然后进行倒酒动作。

背景与挑战

背景概述

透明物体在日常生活中无处不在，如家庭、医疗辅助、餐饮业、工业和建筑工地环境等。然而，这些材料只能反射非常小的一部分可见光，大部分光被散射并通过。从计算机视觉的角度来看，处理这些物体是具有挑战性的，但对于在现实世界中的机器人应用的成功部署至关重要。随着智能机器人开始进入公共空间，玻璃制品（如瓶子和饮料杯）成为服务机器人不可或缺的物品，未来的服务机器人不仅需要检测这些材料，还需要操纵它们。此外，机器学习和数据驱动方法需要大量的训练数据才能达到合适的性能。与机器人Sim2Real应用相似，现有的研究也证明了在合成玻璃材料生成领域存在显著的Sim2Real差距。开放词汇方法被广泛用于各种具身机器人设置中的目标检测。具身机器人代理至少包括一个检测模块、一个动作模块和一个用于高级交互和任务规划的语言模型。最近的方法旨在通过利用视觉语言模型（VLM）来融合检测和语言处理。这些代理的设计具有交互性，通常位于涉及用户交互和经常合作的场景中，因此留下了潜在的无限对象名称语料库供检测。著名的开放词汇目标检测方法，如Grounding DINO、YOLOWorld和OWLVit，通过扩展可识别对象类的范围而无需大量重新标注，从而彻底改变了目标检测。这些方法基于端到端的Transformer架构构建。全局图像特征由解码器骨干网络提取，并通过深度度量学习与语言嵌入融合。然而，尽管它们取得了成功，但我们的实验表明，这些模型在遇到透明物体时，其性能会显著下降，这在人机交互场景中很常见。为了解决这些挑战，我们引入了一个新颖的真实世界数据集，该数据集是在图2中显示的人形机器人NICOL上捕获的，包括一种新的基于深度的自动标注方法。机器人配备了RGB-D扫描仪和标准RGB相机的组合。我们工作的具体贡献包括：一个专门为玻璃物体检测设计的真实世界数据集，解决了合成数据集的局限性并弥合了Sim2Real差距；一个自动标注流程，如图1所示，允许快速标注数据，利用现有的视觉基础模型；视觉检测器与物理机器人的实时集成，展示了其在人机交互场景中的潜力；人形调酒师任务作为用例，其中机器人准确地检测玻璃器皿并执行倒酒动作，为在现实、社交互动的环境中进行的控制实验建立了一个平台。

当前挑战

透明物体的计算机视觉处理具有挑战性，因为它们反射的光线很少，大部分光线被散射并通过。现有的开放词汇目标检测器在遇到透明物体时表现不佳，这给机器人应用带来了问题。为了解决这个问题，研究人员提出了一个新颖的方法，用于从RGB-D传感器获取真实世界数据，该方法最大限度地减少了人工工作量。他们提出了一种自动标注流程，该流程基于深度测量为所有获取的帧生成标签。他们提供了一个新颖的真实世界玻璃物体数据集，该数据集是在NeuroInspired COLlaborator（NICOL）上收集的，NICOL是一个人形机器人平台。数据集由7850张从五个不同相机记录的图像组成。他们展示了他们训练的基线模型优于最先进的开放词汇方法。此外，他们还在NICOL平台上部署了他们的基线模型，在人机交互的调酒场景中实现了81%的成功率。

常用场景

经典使用场景

GlassNICOLDataset 是一个专为机器人视觉理解而设计的现实世界玻璃物体数据集，它包含了从五台不同相机记录的 7850 张图像，涵盖了多种场景下的玻璃物体。该数据集的典型使用场景是在人机协作的调酒任务中，机器人需要准确识别和操作各种玻璃器皿，包括识别不同类型的玻璃杯，如啤酒杯、葡萄酒杯、威士忌杯和水杯等，并能够根据用户的指令进行精准的倒酒操作。

衍生相关工作

GlassNICOLDataset 衍生了一系列相关工作，包括基于深度学习的玻璃物体检测算法、基于视觉和语言模型的机器人调酒系统、基于多模态感知的透明物体操作算法等。这些相关工作不仅推动了机器人视觉感知领域的发展，也为机器人在现实世界中的应用提供了新的思路和方法。例如，基于深度学习的玻璃物体检测算法可以用于识别和分类各种玻璃物体，从而实现机器人在现实世界中的透明物体操作。基于视觉和语言模型的机器人调酒系统可以用于实现人机协作的调酒服务，提高机器人的服务质量和效率。基于多模态感知的透明物体操作算法可以用于实现机器人在现实世界中的透明物体操作，从而提高机器人的操作精度和稳定性。

数据集最近研究