HuMMan
收藏arXiv2023-04-16 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2204.13686v2
下载链接
链接失效反馈官方服务:
资源简介:
HuMMan是由上海人工智能实验室创建的大规模多模态4D人体数据集,包含1000个人体对象,40万个序列和6000万帧。该数据集提供多种数据格式和标注,包括彩色图像、点云、关键点、SMPL参数和纹理网格,旨在支持动作识别、姿态估计、参数化人体重建和纹理网格重建等多项任务。数据集还包含一个由500个动作组成的动作集,覆盖基本运动,并支持跨设备域的研究。HuMMan数据集的创建过程涉及使用10个同步的RGB-D相机捕捉视频和深度序列,并通过后处理工具链将原始数据转换为多种格式。该数据集的应用领域广泛,旨在推动人体感知和建模技术的发展。
HuMMan is a large-scale multimodal 4D human dataset created by the Shanghai AI Laboratory. It includes 1000 human subjects, 400,000 sequences and 60 million frames. This dataset provides various data formats and annotations, including color images, point clouds, keypoints, SMPL parameters and textured meshes, aiming to support multiple tasks such as action recognition, pose estimation, parametric human reconstruction and textured mesh reconstruction. The dataset also contains an action set composed of 500 actions covering basic movements, and supports cross-device domain research. The creation of HuMMan dataset involved using 10 synchronized RGB-D cameras to capture video and depth sequences, and converted raw data into multiple formats via a post-processing toolchain. The dataset has a wide range of application fields and aims to promote the development of human perception and modeling technologies.
提供机构:
上海人工智能实验室
创建时间:
2022-04-29
搜集汇总
数据集介绍

构建方式
在计算机视觉与图形学领域,人类感知与建模是基础性研究课题。HuMMan数据集的构建采用了精心设计的硬件系统与自动化处理流程。研究团队定制了八角棱柱形多层框架,部署十台Azure Kinect RGB-D相机与一部iPhone 12 Pro Max移动设备,实现了多视角同步采集。数据采集分为两个阶段:首先使用Artec Eva高精度扫描仪获取每位受试者在标准姿态下的高分辨率静态扫描;随后受试者在框架内执行从500个基础动作中随机抽取的40-60个动作,生成包含彩色图像、深度图、点云序列的动态数据。通过两阶段标定与精密同步协议,确保了多模态数据在时空上的一致性。
特点
HuMMan数据集展现出多维度融合的显著特征。其核心优势在于提供了全面且同步的多模态数据与标注,包括彩色图像、点云、二维与三维关键点、SMPL参数以及带纹理的网格序列。数据集规模宏大,涵盖1000名具有多样人口统计学特征的受试者,共40万序列、6000万帧数据。特别地,数据集创新性地将移动设备纳入传感器套件,为跨设备域适应研究提供了真实场景。其动作集设计基于人体解剖学原理,通过肌肉群驱动系统性地定义了500个基础动作,确保了动作类别的完备性与无歧义性。
使用方法
HuMMan数据集为多项视觉任务提供了标准化的评估基准。研究者可利用其丰富的标注开展动作识别、二维与三维姿态估计、三维参数化人体恢复以及带纹理的网格重建等任务。数据集提供了预划分的训练与测试集协议,支持按受试者、动作类别或摄像机视角进行划分,便于进行领域内与跨领域性能评估。对于动作识别,可利用提供的三维骨骼序列与动作标签;对于人体恢复任务,可结合彩色图像、点云与SMPL参数进行模型训练与验证。数据集包含的移动设备数据,尤其适合研究跨传感器域差距与知识迁移问题。
背景与挑战
背景概述
HuMMan数据集由上海人工智能实验室、南洋理工大学S-Lab、商汤科技、香港中文大学及清华大学等机构的研究团队于近年联合创建,旨在应对4D人体感知与建模领域对大规模、多模态数据的迫切需求。该数据集核心聚焦于构建一个涵盖时空动态信息、支持多种任务范式的综合性人体数据资源,以推动人体动作识别、姿态估计、参数化人体恢复及纹理网格重建等关键研究方向的发展。其影响力体现在通过纳入1000名受试者、500种基础动作设计、以及同步采集的RGB-D视频、点云、关键点、SMPL参数与纹理网格等多模态标注,显著提升了相关算法在复杂场景下的泛化能力与评估基准的完备性。
当前挑战
HuMMan数据集致力于解决细粒度人体动作识别、动态人体网格重建、基于点云的人体参数恢复及跨设备域适应等核心领域问题,其构建过程面临多重挑战。在数据采集层面,需实现十台Azure Kinect与iPhone移动设备间的高精度时间同步与空间标定,并克服深度传感器噪声干扰与多视角数据融合的几何一致性难题。在标注生成环节,自动化工具链需在保证大规模序列数据处理效率的同时,确保三维关键点三角化、SMPL模型注册及纹理网格重建的精度与稳定性,尤其需处理动态序列中的遮挡、姿态多变及衣物纹理投影失真等问题。此外,数据集的规模与多样性设计亦需平衡受试者伦理合规、动作定义的解剖学严谨性以及多任务基准评估的标准化需求。
常用场景
经典使用场景
在计算机视觉与图形学领域,HuMMan数据集作为多模态4D人体感知与建模的基准资源,其经典使用场景聚焦于细粒度动作识别研究。该数据集通过涵盖500种基于肌肉驱动原理设计的原子化动作,覆盖了上肢、下肢及全身协同运动的完整谱系,为模型提供了区分细微动作差异的挑战性环境。例如,在俯卧撑的多种变体(如跪姿俯卧撑、腿部支撑俯卧撑)中,模型需捕捉关节角度、运动轨迹的微妙变化,从而推动动作理解向更高精度发展。
解决学术问题
HuMMan数据集系统性地解决了多模态人体感知中的若干核心学术问题。在数据层面,它通过同步采集RGB图像、点云、关键点、SMPL参数及纹理网格,弥补了现有数据集在模态完整性上的不足;在任务层面,其支持动作识别、姿态估计、参数化人体重建与动态网格重建等多任务评估,为跨模态联合学习提供了实验基础。尤为重要的是,数据集揭示了移动设备与专业传感器间的域差异问题,以及基于真实点云的人体参数化恢复等尚未充分探索的挑战,为后续研究指明了方向。
衍生相关工作
HuMMan数据集已衍生出多个方向的经典研究工作。在动作识别领域,基于其骨骼数据的图卷积网络(如ST-GCN、2s-AGCN)被广泛用于细粒度分类模型的设计与验证;在三维姿态估计中,数据集为2D-to-3D提升方法(如FCN、Video3D)提供了跨视角泛化能力的测试平台。此外,针对参数化人体恢复,HMR等图像基方法及VoteHMR等点云基方法均在HuMMan上进行了性能评估,推动了跨模态重建算法的进步;纹理网格重建方面,PIFu、Function4D等隐式神经表示方法亦借助该数据集验证了动态序列重建的可行性。
以上内容由遇见数据集搜集并总结生成



