MVHumanNet

Name: MVHumanNet
Creator: 香港中文大学（深圳）
Published: 2023-12-06 02:50:12
License: 暂无描述

arXiv2023-12-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2312.02963v1

下载链接

链接失效反馈

官方服务：

资源简介：

MVHumanNet是由香港中文大学（深圳）创建的一个大规模多视角人类动作捕捉数据集，包含4500个不同身份的人和9000种日常服装。该数据集通过48个高分辨率摄像头捕捉，涵盖了60000个动作序列和6.45亿帧视频，具有丰富的标注信息，如人体掩码、相机参数、2D/3D关键点等。MVHumanNet旨在解决3D视觉领域中人类中心任务的数据稀缺问题，支持多种下游任务，如动作识别、神经辐射场重建和文本驱动的人体图像生成。

MVHumanNet is a large-scale multi-view human motion capture dataset developed by The Chinese University of Hong Kong, Shenzhen. It encompasses 4500 distinct individuals and 9000 types of daily clothing. Captured via 48 high-resolution cameras, this dataset covers 60000 motion sequences and 645 million video frames, with rich annotation information including human masks, camera parameters, 2D/3D keypoints, and so forth. MVHumanNet aims to address the data scarcity issue in human-centric tasks within the 3D vision field, and supports a variety of downstream tasks such as action recognition, neural radiance field (NeRF) reconstruction, and text-driven human image generation.

提供机构：

香港中文大学（深圳）

创建时间：

2023-12-06

搜集汇总

数据集介绍

构建方式

在三维视觉领域，大规模高质量人体数据的采集长期面临挑战。MVHumanNet的构建依托于一套精心设计的同步多视角捕获系统，该系统包含48台高分辨率工业相机，以多层棱柱结构排列，确保从全方位捕捉人体动作细节。数据采集过程邀请了4500名参与者，每位参与者穿着两套日常服饰，在预定义的500种动作库中随机选择并执行动作序列，最终形成了包含9000套服装、6万组动作序列及6.45亿帧图像的庞大数据集。通过系统化的招募策略与标准化采集流程，该数据集在身份多样性、服饰覆盖度与动作丰富性上实现了显著突破。

特点

MVHumanNet的核心特点在于其前所未有的规模与多维注释体系。数据集涵盖了4500个独立身份、9000套日常服饰及500种动作类型，在身份数量、服装多样性与动作序列规模上均超越现有同类数据集。每帧图像均附有精细标注，包括人体掩码、相机参数、二维与三维关键点、SMPL/SMPLX参数以及文本描述，形成了多层次、结构化的数据生态。这种大规模、高标注密度的特性使其能够支持从动作识别、神经辐射场重建到文本驱动生成等多种二维与三维人体中心任务，为数字人体研究提供了坚实的数据基础。

使用方法

MVHumanNet为人体中心视觉任务提供了多方面的应用路径。在动作识别研究中，可利用其多视角骨架标注训练视图一致性模型，提升跨视角动作分类的鲁棒性。对于神经辐射场重建，该数据集的大规模多视角图像可用于训练通用化人体NeRF模型，增强对新姿态与复杂服装的泛化能力。此外，结合文本描述与SMPL姿态条件，可对稳定扩散等生成模型进行微调，实现文本驱动的多视角人体图像合成。数据集还支持二维与三维生成模型的训练，例如基于StyleGAN2的多视角人体图像生成与GET3D的三维人体几何与纹理生成，为数字内容创作提供新范式。

背景与挑战

背景概述

在三维视觉领域，大规模数据集如Objaverse和MVImgNet推动了物体重建与生成的显著进展，然而以人为中心的任务却因缺乏相应规模的数据集而发展滞后。MVHumanNet由香港中文大学（深圳）未来智联网络研究院与数据科学学院的研究团队于2023年提出，旨在填补这一空白。该数据集专注于多视角日常着装人体捕捉，核心研究问题在于如何高效获取大规模、高保真度的三维人体数据以支持数字人相关应用。通过部署包含48台高分辨率相机的同步采集系统，MVHumanNet成功收录了4500个独特身份、9000套日常着装及6.45亿帧图像，并附有详尽的动作标签、相机参数与人体模型参数等标注。其庞大规模与多样性为三维人体重建、生成及动作理解等任务提供了前所未有的数据基础，有望推动数字人技术的革新与发展。

当前挑战

MVHumanNet所针对的领域问题在于三维人体视觉任务中数据稀缺的挑战，现有数据集往往受限于身份单一、着装简单或动作范围狭窄，难以支撑模型在复杂真实场景下的泛化能力。构建该数据集的过程中，研究团队面临多重挑战：在数据采集方面，需设计高效的多视角同步系统以捕捉高分辨率视频，同时确保照明、曝光等参数的一致性；在样本多样性方面，必须平衡年龄、体型、着装风格与动作类型的分布，以覆盖日常生活的广泛场景；在数据标注环节，处理海量图像所需的人力与计算资源极为庞大，团队采用从粗到精的分层自动分割策略，结合RVM与SAM模型，以在保证质量的前提下完成人体掩码标注。此外，还需整合2D/3D关键点检测、SMPL参数拟合等多类标注，以增强数据集的实用性与扩展性。

常用场景

经典使用场景

在三维视觉与数字人领域，MVHumanNet 以其空前规模的多视角日常着装人体图像序列，为视图一致的动作识别任务提供了关键支撑。该数据集通过48个高分辨率相机同步捕获4500个不同身份个体在9000套日常服饰下的60000个动作序列，共计6.45亿帧图像，并附带精确的动作标签与2D/3D关键点标注。研究者可利用其多视角同步特性，训练模型从单一视角的2D骨架输入推理出跨视角稳定的动作类别，显著提升了模型在真实复杂场景下的鲁棒性与泛化能力。

衍生相关工作

MVHumanNet 的发布催生并支撑了一系列围绕大规模三维人体理解的经典研究工作。在神经渲染方向，它被用于训练和评估如GP-NeRF等通用化人体重建模型，验证了数据规模对模型泛化至罕见姿态和复杂衣着的关键作用。在生成模型领域，基于该数据集微调的Stable Diffusion实现了文本与姿态驱动的高质量人体图像生成；同时，StyleGAN2与GET3D等模型也利用其进行训练，分别推动了多视角一致的2D人体图像生成与带纹理的3D人体几何生成技术的进展，为后续研究奠定了坚实的基准。

数据集最近研究