HUM4D

Name: HUM4D
Creator: 德克萨斯农工大学·视觉与空间人工智能实验室; 德克萨斯农工大学·PVFA学院; 德克萨斯农工大学·ECEN系; 德克萨斯农工大学·CSCE系
Published: 2026-04-14 22:06:43
License: 暂无描述

arXiv2026-04-14 更新2026-04-16 收录

下载链接：

https://parkyeeun23.github.io/HUM4D/

下载链接

链接失效反馈

官方服务：

资源简介：

HUM4D是由德克萨斯农工大学团队开发的复杂4D无标记人体动作捕捉数据集，包含84,000帧同步多视角RGB-D序列与专业Vicon系统采集的标记式动作真值。该数据集聚焦真实场景复杂性，涵盖单人多视角动态、快速身份交换、严重遮挡及家具交互等挑战性场景，并附带精确相机标定与SMPL/SMPL-X参数。通过六台Intel RealSense D455传感器在149平方米空间内采集，数据精度达亚毫米级，旨在推动无标记动作捕捉技术在多人交互、遮挡处理等现实场景中的算法突破。

提供机构：

德克萨斯农工大学·视觉与空间人工智能实验室; 德克萨斯农工大学·PVFA学院; 德克萨斯农工大学·ECEN系; 德克萨斯农工大学·CSCE系

创建时间：

2026-04-14

原始信息汇总

HUM4D 数据集概述

数据集基本信息

数据集名称：HUM4D
发布会议/年份：IEEE/CVF CVPR 2026, 4D World Models Workshop
主要作者：Yeeun Park, Miqdad Naduthodi, Suryansh Kumar
所属机构：Texas A&M University
对应作者邮箱：cszghp [at] gmail.com

数据集规模与内容

动作捕捉序列数量：44 个
同步相机数量：6 个同步 RGB-D 相机
总帧数：83,768 帧
交互主体数量：3 个交互主体
真值数据：SMPL 参数（姿态 θ、形状 β、平移 t）

数据集特点与目标

核心目标：为严重遮挡和多人交互场景下的无标记人体动作捕捉提供基准测试。
数据内容：提供与专业 Vicon 动作捕捉真值对齐的同步多视角 RGB-D 序列。
挑战性场景：包含抖动、身份切换、遮挡和远近交互等复杂场景。
具体挑战：包含复杂动作、频繁的人际遮挡、穿着相似主体间的快速位置交换以及不同的主体距离。

数据采集与处理

采集环境：专业的动作捕捉工作室，配备 44 个同步的 Vicon 红外相机和一个多视角 RGB-D 设置。
硬件：Intel RealSense D455 传感器，Vicon 动作捕捉系统。
处理流程：多视角 RGB-D 采集与 Vicon 动作捕捉同步。标记轨迹被重建并重定向到 SMPL 模型，以生成姿态、形状、平移参数及评估就绪的标注。

数据获取

公开数据下载链接：https://drive.google.com/drive/folders/1OnaU6yBmZEyM6ZM0C2IOoWplgkLKpo6P?usp=drive_link
非公开数据联系：对于数据集中包含但未公开的数据，请联系 cszghp [at] gmail.com。

引用信息

bibtex @inproceedings{park2026hum4d, title={A Dataset and Evaluation for Complex 4D Markerless Human Motion Capture}, author={Park, Yeeun and Naduthodi, Miqdad and Kumar, Suryansh}, booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在专业运动捕捉工作室中，HUM4D数据集的构建采用了多模态同步采集策略。该数据集在配备44台Vicon红外摄像机的MoCap舞台上，通过让参与者穿着带有56个反光标记的专业动捕服，以120帧/秒的频率记录精确的骨架运动轨迹。同时，六台Intel RealSense D455相机以环形配置同步采集多视角RGB与深度图像，并通过硬件级同步确保时间对齐。采集场景设计涵盖了单人动态与复杂的多人交互，包括快速位置交换、严重人际遮挡及动态深度变化等挑战性条件，以模拟真实世界的高复杂度。

特点

HUM4D数据集的核心特点在于其提供了高度同步的多视角RGB-D序列与专业标记式运动捕捉的真值数据之间的精确对齐。该数据集特别强调了现实世界中的复杂交互场景，包含多达三人的紧密群体活动、严重的肢体重叠与身份交换，以及显著的相机近远距离变化。此外，数据集提供了经过重新定向与时间下采样的SMPL/SMPL-X参数、三维关键点坐标及边界框标注，形成了统一且可直接用于参数化人体建模与评估的标准化格式。

使用方法

该数据集主要作为评估无标记4D人体运动捕捉方法在复杂现实条件下泛化能力的基准平台。研究人员可直接使用其提供的同步RGB-D图像流、相机标定参数以及对应的SMPL格式真值，对单帧或多帧重建方法进行性能测试。数据集已按运动类型（如抖动、遮挡、身份交换等）和活动类别进行层次化组织，便于针对特定挑战场景进行针对性评估与分析。通过在该数据集上训练或测试，能够有效揭示现有方法在密集交互、严重遮挡等条件下的局限性，并推动面向真实场景的鲁棒性模型发展。

背景与挑战

背景概述

在计算机视觉与人体运动捕捉领域，基于标记点的运动捕捉系统虽能提供高精度四维人体建模，但其对专用硬件与标记物的依赖严重制约了实际应用的扩展性与部署灵活性。随着无标记运动捕捉技术的兴起，现有数据集在复杂真实世界交互场景中的局限性日益凸显，尤其在多人动态交互、严重遮挡与身份交换等方面存在显著领域鸿沟。为此，德克萨斯农工大学视觉与空间人工智能实验室的研究团队于2026年推出了HUM4D数据集，旨在为复杂四维无标记人体运动捕捉提供多视角RGB-D序列与专业标记点运动捕捉真值数据。该数据集通过同步采集多视角彩色与深度图像，结合Vicon系统获取的高精度三维运动轨迹及SMPL/SMPL-X参数，致力于推动无标记运动捕捉技术在真实交互场景中的鲁棒性发展，填补现有基准数据集在复杂多人交互建模方面的空白。

当前挑战

HUM4D数据集所针对的核心领域挑战在于复杂多人交互场景下的四维无标记人体运动捕捉。现有方法在应对严重人际遮挡、快速身份交换、动态深度变化及紧密接触交互时，常因二维关键点证据缺失或模糊而导致三维姿态与形状重建性能显著下降。数据集的构建过程同样面临多重技术挑战：多视角RGB-D传感器的高精度时间同步与几何标定要求极为严苛；为确保视觉观测与标记点真值数据的严格对齐，需解决不同采集系统间的帧率差异与时空配准问题；在捕捉包含三人以上的密集交互、快速运动转换及物体交互场景时，标记点脱落与身份混淆等现象进一步增加了数据采集与后期处理的复杂度。这些因素共同构成了该数据集在推动领域发展过程中必须克服的关键障碍。

常用场景

经典使用场景

在计算机视觉领域，无标记人体运动捕捉技术致力于从视觉数据中重建动态人体的三维姿态与形状。HUM4D数据集通过提供包含严重人际遮挡、快速身份交换和复杂交互模式的多视角RGB-D序列，成为评估和推动该领域发展的经典基准。其核心应用场景在于为多人在紧密互动条件下的4D人体建模算法提供严格的测试平台，尤其关注现有方法在真实世界复杂动态中的泛化能力。

解决学术问题

该数据集旨在弥合受控基准测试与真实世界部署之间的领域鸿沟。它系统地解决了现有研究在应对密集多人交互、持续严重遮挡以及动态身份混淆时所面临的评估不足问题。通过提供与专业标记式动捕系统精确对齐的多模态真值数据，HUM4D为量化模型在复杂场景下的性能退化提供了可靠依据，推动了对于交互感知重建、时序一致性和多视角几何利用等关键学术问题的深入探索。

衍生相关工作

HUM4D的发布催生了一系列关注复杂交互场景的衍生研究工作。其基准测试结果直接揭示了如SPIN、PARE、HMR2.0和PersPose等帧基模型在密集多人条件下的局限性，从而激励了后续研究向时序建模与交互推理方向发展。该数据集已成为开发新型多视角融合算法、设计抗遮挡的人体网格恢复网络、以及探索身份一致性跟踪方法的重要催化剂，推动了无标记动捕技术从单人静态场景向多人动态复杂场景的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集