Human3.6M 3D WholeBody (H3WB) dataset

Name: Human3.6M 3D WholeBody (H3WB) dataset
Creator: 法国马恩-拉瓦莱大学LIGM实验室
Published: 2023-09-06 20:22:24
License: 暂无描述

arXiv2023-09-06 更新2024-06-21 收录

下载链接：

https://github.com/wholebody3d/wholebody3d

下载链接

链接失效反馈

官方服务：

资源简介：

H3WB数据集是基于Human3.6M的大型3D全身姿态估计数据集，由法国马恩-拉瓦莱大学LIGM实验室创建。该数据集包含100,000张图像，每张图像都标注了133个全身关键点，包括面部、手部和脚部。数据集的创建过程涉及多视角几何、自动编码器和扩散模型的使用，以确保关键点标注的准确性。H3WB数据集主要用于推动3D全身姿态估计的研究，特别是在从完整或不完整的2D姿态提升到3D姿态，以及从单张RGB图像预测3D全身姿态等领域。

The H3WB dataset is a large-scale 3D full-body pose estimation dataset based on Human3.6M, created by the LIGM Laboratory of Université de Marne-la-Vallée, France. This dataset contains 100,000 images, each annotated with 133 full-body keypoints covering the face, hands and feet. The creation of this dataset involved the use of multi-view geometry, autoencoders and diffusion models to ensure the accuracy of the keypoint annotations. The H3WB dataset is primarily intended to advance research on 3D full-body pose estimation, especially in the domains of lifting from complete or incomplete 2D poses to 3D poses, and predicting 3D full-body poses from single RGB images.

提供机构：

法国马恩-拉瓦莱大学LIGM实验室

创建时间：

2022-11-29

搜集汇总

数据集介绍

构建方式

H3WB数据集的构建基于多视图几何原理，首先利用OpenPifPaf 2D全身检测器从Human3.6M数据集的4个视图中获取初始的3D全身关键点。由于2D检测器可能会遗漏某些关键点，因此进一步训练了一个掩码自动编码器网络来补充这些遗漏的关键点。最后，为了提高手部和面部的关键点精度，开发了一个细化网络。整个数据集包含100K张图像，每张图像都有133个配对的2D和3D全身关键点注释。

特点

H3WB数据集的特点在于其提供了全身关键点的精确注释，包括身体、面部、手部和足部。数据集的构建方法使其能够捕获复杂的全身姿势，并通过质量评估过程保证了关键点的准确性。此外，H3WB数据集还与COCO Wholebody布局保持一致，方便研究人员利用现有的2D检测器进行3D姿态估计研究。

使用方法

使用H3WB数据集时，研究人员可以将其用于三个主要任务：1) 从完整的2D全身姿态提升到3D全身姿态；2) 从不完整的2D全身姿态提升到3D全身姿态；3) 从单个RGB图像中估计3D全身姿态。对于每个任务，都提供了基准测试，并鼓励研究人员通过提交结果到维护者来参与排行榜。数据集被分为训练集和测试集，并且推荐使用5折交叉验证来选择模型和调整超参数。

背景与挑战

背景概述

在三维人体姿态估计领域，准确识别整个人体上的关键点，包括面部、手部、身体和脚部，对于分析人类行为、表情、情感、意图以及人与物理世界的互动至关重要。然而，目前缺乏一个完全标注和准确的三维全身数据集，导致深度网络在特定身体部位上分别进行训练，然后在推理过程中进行组合。或者他们依赖于由参数化人体模型提供的伪地面真实情况，这些模型不如基于检测的方法准确。为了克服这些问题，我们引入了Human3.6M 3D WholeBody (H3WB) 数据集，它使用 COCO Wholebody 布局为 Human3.6M 数据集提供了全身标注。H3WB 包含 133 个全身关键点标注，分布在 100K 张图像上，这得益于我们的新多视图管道。我们还提出了三个任务：i) 从 2D 完整全身姿态提升 3D 全身姿态，ii) 从 2D 不完整全身姿态提升 3D 全身姿态，以及 iii) 从单个 RGB 图像估计 3D 全身姿态。此外，我们还报告了这些任务的几个基线方法。此外，我们还提供了 TotalCapture 的自动化 3D 全身标注，并通过实验表明，当与 H3WB 结合使用时，有助于提高性能。

当前挑战

三维人体姿态估计面临的挑战包括：1) 从单个 RGB 图像直接估计 3D 人体姿态，这需要在图像中定位人体关键点，这对于分析人类行为、表情、情感、意图以及人与物理世界的互动至关重要；2) 从 2D 关键点提升 3D 姿态，这需要首先定位 2D 关键点，然后将 2D 人体姿态提升到 3D 空间；3) 2D 姿态完成，即通过定位缺失的关键点来补全部分估计的姿态。此外，构建 H3WB 数据集的过程中也遇到了挑战，包括如何从多视图图像中创建详细的三维人体姿态关键点，如何为 3D 全身姿态估计创建一个准确的大规模数据集，以及如何为 H3WB 数据集上的三个任务提供基线。

常用场景

经典使用场景

在人体姿态估计领域，H3WB数据集主要用于3D全身姿态估计，包括识别整个身体的关键点，如脸部、手部、身体和脚部。由于缺乏完整的3D全身数据集，深度网络通常在特定身体部位上单独训练，然后在推理过程中进行组合。或者依赖于由参数化人体模型提供的伪地面真实数据，这些数据不如基于检测的方法准确。为了克服这些问题，我们引入了H3WB数据集，它使用COCO Wholebody布局为Human3.6M数据集提供了全身注释。H3WB包含100K图像上的133个全身关键点注释，这得益于我们的新多视图管道。我们还提出了三个任务：i) 从2D完整全身姿态到3D全身姿态的提升，ii) 从2D不完整全身姿态到3D全身姿态的提升，以及iii) 从单个RGB图像到3D全身姿态的估计。此外，我们还报告了这些任务中流行方法的几个基线。

衍生相关工作

H3WB数据集的引入衍生了多个相关的工作。首先，它促进了基于深度学习的3D全身姿态估计方法的开发，这些方法可以更准确地预测人体姿态。其次，H3WB数据集还推动了3D姿态估计中的姿态补全技术的发展，这使得在不完整2D姿态的情况下也能获得准确的3D姿态。此外，H3WB数据集还促进了多视图人体姿态估计方法的研究，这些方法可以更好地处理遮挡和遮挡问题。总之，H3WB数据集为相关领域的研究提供了重要的推动力，有助于推动整个领域的发展。

数据集最近研究