HOI4D

Name: HOI4D
Creator: 清华大学
Published: 2024-01-03 22:31:13
License: 暂无描述

arXiv2024-01-03 更新2024-06-21 收录

下载链接：

http://hoi4d.top/

下载链接

链接失效反馈

官方服务：

资源简介：

HOI4D是一个由清华大学创建的大规模4D第一人称数据集，旨在推动类别级人机交互的研究。该数据集包含240万个RGB-D第一人称视频帧，覆盖4000个序列，涉及9名参与者与800个物体实例的交互，这些物体均匀分布在16个类别中，包括刚性和可动对象。数据集不仅在实验室环境中收集，还在610个不同的室内场景中进行，参与者在不佩戴任何标记的情况下执行任务，以展示每个类别的功能。HOI4D提供了逐帧的全景分割、运动分割、3D手部姿态、刚性和可动对象姿态以及动作分割的注释，为类别级人机交互提供了前所未有的详细信息。此外，数据集还包括所有序列的重建场景点云和物体网格，支持一系列类别级人机交互任务的研究，如4D动态点云序列的语义分割、类别级物体姿态跟踪以及具有多样交互目标的第一人称动作分割。

HOI4D is a large-scale 4D first-person dataset developed by Tsinghua University, aiming to promote research on category-level human-object interaction. This dataset contains 2.4 million RGB-D first-person video frames, covering 4000 sequences, and involves interactions between 9 participants and 800 object instances. These objects are evenly distributed across 16 categories, including both rigid and deformable objects. Data collection was conducted not only in laboratory settings but also in 610 distinct indoor scenes, where participants performed tasks without wearing any markers to demonstrate the functionalities of each category. HOI4D provides per-frame annotations for panoptic segmentation, motion segmentation, 3D hand pose, rigid and deformable object pose, and action segmentation, providing unprecedentedly detailed information for category-level human-object interaction research. Additionally, the dataset includes reconstructed scene point clouds and object meshes for all sequences, supporting research on a series of category-level human-object interaction tasks such as semantic segmentation of 4D dynamic point cloud sequences, category-level object pose tracking, and first-person action segmentation with diverse interaction targets.

提供机构：

清华大学

创建时间：

2022-03-03

搜集汇总

数据集介绍

构建方式

HOI4D 数据集的构建旨在推动基于 4D 自我中心视角的人类-物体交互研究。该数据集由 2.4M RGB-D 自我中心视频帧组成，涵盖 4000 个序列，由 4 名参与者与 16 个类别中的 800 个不同物体实例在 610 个不同的室内房间内进行交互。每帧都提供了全景分割、运动分割、3D 手势、类别级物体姿态和手部动作的注释，以及重建的物体网格和场景点云。

特点

HOI4D 数据集的特点在于其丰富的注释和多样化的场景。它涵盖了 16 个日常生活中的常见物体类别，包括刚性和关节式物体，每个类别包含 50 个独特的物体实例。数据集还包含了 54 个基于物体功能的交互任务，从简单的拾取和放置到复杂的基于功能的任务，例如将杯子放入抽屉或用钥匙打开门。此外，数据集还提供了重建的场景点云和物体网格，方便进行仿真环境中的机器人学习。

使用方法

使用 HOI4D 数据集时，研究者可以将其用于以下三个主要任务：4D 动态点云序列的语义分割、类别级物体姿态跟踪和自我中心手部动作分割。数据集提供了训练和测试集的划分，并包含了支持这些任务的注释。研究者可以使用提供的注释来训练和评估他们的算法，并在 HOI4D 数据集上测试其性能。此外，数据集还可以用于仿真环境中的机器人学习，例如通过模仿 HOI4D 中的交互轨迹来训练机器人执行复杂的交互任务。

背景与挑战

背景概述

HOI4D 数据集由清华大学、北京大学和上海人工智能实验室的研究人员于 2024 年 1 月 3 日共同创建，旨在推动基于 4D 视觉信号的类别级人机交互研究。该数据集包含由 9 名参与者与 16 个类别中 800 个不同对象实例进行交互的 4000 个序列，以及 240 万张 RGB-D 领先视角视频帧。数据集提供了丰富的注释，包括全景分割、运动分割、3D 手部姿态、类别级对象姿态和手部动作，并附有重建的对象网格和场景点云。HOI4D 数据集的创建对于推动人机交互领域的研究具有重要意义，它为人机交互感知、机器人学习和增强现实等应用提供了宝贵的数据资源。

当前挑战

HOI4D 数据集面临着诸多挑战，主要表现在以下几个方面： 1) 领域问题挑战：HOI4D 数据集旨在解决基于 4D 领先视角视觉信号的类别级人机交互感知问题，这要求算法能够理解动态场景的语义信息、在遮挡情况下估计 3D 手部姿态、理解交互对象的 3D 姿态和功能，以及识别人类的动作和意图。 2) 构建过程挑战：HOI4D 数据集的构建过程面临着诸多挑战，例如：如何有效地标注 3D 手部姿态和对象姿态、如何处理手部遮挡和快速运动带来的问题、如何保证标注质量和效率等。

常用场景

经典使用场景

HOI4D数据集，作为首个大规模的4D第一人称视角人-物交互数据集，为研究复杂场景下的人-物交互感知提供了丰富的视觉序列和详尽的标注信息。该数据集涵盖了2.4M RGB-D第一人称视频帧，覆盖了16个类别的800个物体实例，以及9位参与者在610个不同室内场景中的交互行为。数据集提供了动作分割、运动分割、3D手部姿态、类别级物体姿态和手部动作等丰富的标注信息，并重建了物体网格和场景点云。这使得HOI4D成为研究类别级人-物交互感知的理想平台，推动了对4D动态场景理解、类别级物体姿态跟踪和第一人称手部动作分割等任务的探索。

实际应用

HOI4D数据集的实际应用场景十分广泛。首先，它可以用于训练人-物交互感知模型，使其能够识别和理解复杂场景下的交互行为，例如人-物交互辅助机器人、增强现实等。其次，HOI4D数据集可以用于机器人学习，通过模仿人类交互轨迹，使机器人能够完成更复杂的交互任务。此外，HOI4D数据集还可以用于研究人-物交互的语义理解，为构建更智能的交互系统提供数据支持。这些应用场景使得HOI4D数据集具有重要的现实意义，并为推动相关领域的发展提供了新的动力。

衍生相关工作

HOI4D数据集的推出衍生了众多相关研究工作。例如，研究者们基于HOI4D数据集开发了新的类别级人-物交互感知模型，并取得了显著的性能提升。此外，HOI4D数据集还推动了人-物交互语义理解的研究，为构建更智能的交互系统提供了新的思路。此外，HOI4D数据集还为机器人学习提供了丰富的数据支持，推动了机器人学习在交互任务中的应用。这些相关研究工作的开展，进一步推动了类别级人-物交互感知领域的发展，并为解决现实世界中的交互感知问题提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集