NToP

Name: NToP
Creator: 开姆尼茨工业大学
Published: 2024-04-24 23:16:56
License: 暂无描述

arXiv2024-04-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.18196v2

下载链接

链接失效反馈

官方服务：

资源简介：

NToP（NeRF驱动的顶视图人体姿态数据集）是由开姆尼茨工业大学创建的大规模数据集，专为鱼眼相机顶视图的人体姿态估计设计。该数据集包含超过57万张高质量半合成人体图像，并附有2D和3D关键点标注。数据集的创建过程利用了NeRF技术，从现有的2D和3D数据集中生成，特别针对顶视图鱼眼视角进行了优化。NToP数据集主要应用于顶视图人体姿态估计，旨在解决现有数据集在顶视图视角下的局限性，提高神经网络在2D和3D顶视图人体姿态估计任务中的性能。

NToP (NeRF-powered top-view human pose dataset) is a large-scale dataset created by Chemnitz University of Technology, purpose-built for human pose estimation with fisheye top-view cameras. This dataset contains over 570,000 high-quality semi-synthetic human images paired with 2D and 3D keypoint annotations. The dataset was generated from existing 2D and 3D datasets leveraging NeRF technology, and specially optimized for the fisheye top-view perspective. The NToP dataset is primarily applied to top-view human pose estimation, aiming to address the limitations of existing datasets under top-view perspectives and improve the performance of neural networks in 2D and 3D top-view human pose estimation tasks.

提供机构：

开姆尼茨工业大学

创建时间：

2024-02-28

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，针对鱼眼相机顶视角的人体姿态估计任务，现有数据集稀缺且质量有限。NToP数据集通过创新的NeRF技术构建，其流程首先选取满足多视角、已知相机参数及三维姿态标注的源数据集，如Human3.6M、GeneBody和ZJU-MoCap。随后，利用HumanNeRF框架训练个性化的人体神经辐射场模型，每个模型基于约200至800帧的多视角图像及其分割掩码、SMPL参数进行优化。训练完成后，在虚拟环境中设置面向下的鱼眼相机，采用等距投影模型，围绕人体模型在多个方位和高度进行渲染，生成高质量的半合成顶视角图像。最后，通过前向投影将SMPL关节的三维坐标映射至图像平面，自动生成对应的二维和三维关键点标注，从而构建出包含超过57万张图像的规模化数据集。

特点

NToP数据集在顶视角人体姿态估计领域展现出显著优势。其核心特点在于规模宏大，总计超过57万张图像，远超同类数据集如PanopTOP31K和THEODORE+。数据质量方面，得益于NeRF技术的高保真渲染能力，图像具有高度真实感，人物主体尺寸较大，平均约204×201像素，有效提升了细节可辨识度。多样性上，数据集覆盖了43位不同性别、体型和衣着的演员，并通过虚拟相机在多个方位和高度进行渲染，提供了丰富的视角变化。此外，NToP不仅提供RGB图像，还同步生成人物分割掩码、相机参数以及精准的二维和三维关键点标注，形成了完整的多模态数据支持。这些特点共同确保了数据集在训练深度神经网络时具备优异的泛化能力和实用性。

使用方法

NToP数据集主要用于训练和评估顶视角鱼眼图像下的二维与三维人体姿态估计模型。研究人员可将数据集划分为训练集和验证集，直接用于微调现有的先进姿态估计网络，例如针对二维任务的ViTPose和针对三维任务的HybrIK-Transformer。在使用过程中，建议将NToP的图像与真实世界背景（如MIT室内场景数据库）进行融合，以减小域间差异，提升模型在真实场景下的鲁棒性。对于二维姿态估计，可遵循MS COCO的评估流程计算平均精度（AP）和平均召回率（AR）；对于三维姿态估计，则可采用平均每关节位置误差（MPJPE）等指标进行评估。此外，数据集提供的多视角渲染序列也为探索多视图姿态估计方法提供了可能。通过利用NToP的大规模高质量标注数据，能够显著提升模型在顶视角这一独特且挑战性视角下的性能。

背景与挑战

背景概述

在计算机视觉领域，鱼眼相机顶视视角下的人体姿态估计是一个新兴且富有前景的研究方向，尤其在室内监控、行为分析和紧急事件检测等应用中展现出巨大潜力。然而，该视角下高质量标注数据的稀缺严重制约了相关算法的进展。为应对这一挑战，德国开姆尼茨工业大学的研究团队于2024年提出了NToP数据集，该数据集利用神经辐射场技术，从现有的2D和3D人体姿态数据中生成大规模、高质量的顶视鱼眼图像，并附带精确的2D与3D关键点标注。NToP包含超过57万张图像，不仅显著丰富了顶视视角的数据资源，还通过实验验证了其在提升神经网络性能方面的有效性，推动了顶视人体姿态估计领域的发展。

当前挑战

NToP数据集致力于解决顶视鱼眼图像中人体姿态估计的领域挑战，其核心在于克服视角畸变、遮挡复杂以及现有数据稀缺导致的模型泛化能力不足。在构建过程中，研究团队面临多重技术难题：首先，神经辐射场模型的训练需依赖多视角数据与精确的相机参数，对原始数据集的质量和完整性提出了较高要求；其次，虚拟鱼眼相机的渲染涉及非线性的光线追踪过程，易产生条纹伪影，影响图像的真实性；此外，处理非刚性人体动作以及与场景物体的交互时，模型难以准确重建细节，导致部分渲染结果出现失真。这些挑战共同凸显了高质量合成数据生成的复杂性与计算成本的高昂。

常用场景

经典使用场景

在计算机视觉领域，鱼眼相机因其宽广的视场角而被广泛应用于室内监控场景，尤其是顶视视角下的人体姿态估计。NToP数据集通过神经辐射场技术，从现有的2D和3D人体姿态数据集中生成高质量的半合成顶视鱼眼图像，为这一特定视角下的研究提供了丰富的数据支持。该数据集最经典的使用场景在于训练和评估顶视鱼眼图像中的2D和3D人体姿态估计算法，例如利用ViTPose和HybrIK-Transformer等先进模型进行关键点检测，以提升模型在复杂视角下的泛化能力和准确性。

衍生相关工作

NToP数据集的推出激发了多项相关研究工作的进展。基于其数据生成管道，研究者们可以进一步探索多视角姿态估计、时序动作识别以及立体相机配置下的数据集构建。例如，该管道可适配于生成自我中心视角的姿态估计数据，或结合高斯溅射技术以提升渲染真实感。同时，NToP与现有数据集如THEODORE+和PanopTOP31K的对比分析，促进了更高质量合成数据生成方法的发展，并为神经辐射场在人体建模领域的优化提供了新的方向。

数据集最近研究