HANDAL
收藏arXiv2023-08-03 更新2024-06-21 收录
下载链接:
https://nvlabs.github.io/HANDAL/
下载链接
链接失效反馈资源简介:
HANDAL数据集由NVIDIA创建,专注于机器人可操作的物体类别,包含212个真实世界物体,分为17个类别。数据集包含308,000个标注的图像帧,来自2,200个视频,每帧图像都包含精确的3D标注,如分割、6自由度姿态和尺度。数据集的创建过程利用了单个现成相机和半自动化处理,确保高质量的3D标注。HANDAL数据集旨在解决机器人领域中复杂环境下的物体操作和功能抓取问题,特别关注硬件和厨房工具,以促进实用场景中的机器人交互研究。
The HANDAL dataset, created by NVIDIA, focuses on robot-manipulable object categories, containing 212 real-world objects divided into 17 categories. It consists of 308,000 annotated image frames from 2,200 videos, with each frame containing precise 3D annotations such as segmentation, 6-degree-of-freedom (6DoF) poses and object scales. The dataset was constructed using a single off-the-shelf camera and semi-automated processing, ensuring high-quality 3D annotations. The HANDAL dataset aims to address object manipulation and functional grasping problems in complex environments within the robotics field, with a particular focus on hardware and kitchen tools to facilitate research on robot interaction in practical scenarios.
提供机构:
NVIDIA
创建时间:
2023-08-03
AI搜集汇总
数据集介绍

构建方式
HANDAL数据集的构建采用了现成的摄像头进行数据收集,并利用半自动化的处理流程进行三维标注。研究者们选择了212个真实世界中的物体,涵盖了17个类别,每个类别至少有12个不同的实例。这些物体包括螺丝刀、扳手等工具,以及勺子、杯子等厨房用品,都是适合机器人进行功能抓取和操作的。数据集包括静态和动态场景,每个图像帧都标注了2D边界框、像素级对象分割、3D抓取区域分割、6自由度物体姿态和比例等信息。为了确保标注质量,研究者在处理静态场景时使用了COLMAP进行相机姿态估计,XMem进行前景分割,Instant NGP进行三维重建;在处理动态场景时使用了BundleSDF进行三维重建和6自由度姿态跟踪。
特点
HANDAL数据集的特点在于其专注于可操纵物体,这些物体适合机器人进行功能抓取和操作,并且具有适当的尺寸和形状。数据集包含了308k个标注的图像帧,涵盖了212个物体实例,分布在17个类别中。每个图像帧都标注了2D边界框、像素级对象分割、3D抓取区域分割、6自由度物体姿态和比例等信息。此外,数据集还提供了所有物体的三维重建模型和功能抓取区域标注。HANDAL数据集的另一个特点是包含了动态场景,这些场景展示了人类如何处理物体,从而为任务导向的分析提供了参考。
使用方法
使用HANDAL数据集时,研究者可以将其用于训练和测试机器学习模型,以实现物体姿态估计和功能抓取预测。数据集的标注信息包括2D边界框、像素级对象分割、3D抓取区域分割、6自由度物体姿态和比例等,这些信息可以帮助模型学习物体的形状、大小、位置和功能特性。此外,数据集还提供了所有物体的三维重建模型,这些模型可以用于生成合成数据,进一步扩展数据集的规模和多样性。为了方便使用,HANDAL数据集的标注信息存储在标准格式中,如COCO的2D边界框/实例掩码和BOP的6自由度姿态。
背景与挑战
背景概述
HANDAL数据集的创建,旨在为机器人操作和功能性抓取提供高质量的3D数据集。该数据集由NVIDIA的研究人员于2023年发布,专注于可操作物体,如钳子、餐具和螺丝刀等,这些物体适合机器人操作和功能性抓取。HANDAL数据集包含了从2.2k视频中收集的308k个带注释的图像帧,涉及212个现实世界中的物体,分布在17个类别中。该数据集的独特之处在于,它不仅提供了6-DoF类别的物体姿态+尺度注释,还提供了所有物体的3D重建网格。HANDAL数据集的发布对机器人操作和功能性抓取的研究领域产生了重要影响,为相关研究提供了宝贵的数据资源。
当前挑战
HANDAL数据集在构建过程中遇到了一些挑战。首先,3D图像的注释需要深度信息或多个图像,这使得注释过程难以扩展。其次,尽管BOP挑战的数据集已经填补了实例级物体姿态估计的空白,但对于类别级物体姿态估计以及学习功能性亲和力(如物体的手柄)的任务仍然是一个挑战。HANDAL数据集通过使用现成的相机收集数据,并采用半自动化的流程进行3D注释,成功地创建了一个大规模的带标签数据集。然而,该数据集仍然存在一些瓶颈,例如,需要手动干预的网格对齐和分割步骤,以及从Instant NGP导出的网格纹理质量较差等问题。这些挑战需要进一步的研究来解决,以便实现更自动化的数据集创建过程。
常用场景
经典使用场景
HANDAL数据集主要用于机器人领域,特别是针对可操控物体的6-DoF位姿估计和功能预测。该数据集包含了212个真实世界中的物体,分为17个类别,每个类别都有多个实例,并提供了丰富的标注信息,包括2D边界框、像素级对象分割、3D手柄功能分割、6-DoF位姿+尺度等信息。这使得HANDAL数据集成为研究机器人功能抓取和操作的宝贵资源。
实际应用
HANDAL数据集的实际应用场景包括机器人抓取、组装、拆卸等任务。通过使用HANDAL数据集,研究人员可以训练机器人进行更精确的抓取和操作,从而提高机器人的工作效率和安全性。此外,HANDAL数据集还可以用于开发新的机器人算法和系统,以实现更复杂的任务。
衍生相关工作
HANDAL数据集的衍生相关工作包括使用该数据集进行位姿估计、功能预测、机器人抓取和操作等任务的研究。此外,HANDAL数据集还可以用于开发新的机器人算法和系统,以实现更复杂的任务。例如,研究人员可以使用HANDAL数据集来训练机器人进行更精确的抓取和操作,从而提高机器人的工作效率和安全性。
以上内容由AI搜集并总结生成



