IMHD-Dataset

Hugging Face2026-01-09 更新2026-01-10 收录

下载链接：

https://huggingface.co/datasets/AfterJourney/IMHD-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

IMHD$`^2`$是一个专注于高动态人-物交互场景的数据集，提供了多模态的数据支持。数据集包含SMPL-H格式的人体运动标注、物体运动标注、高质量物体几何扫描、物体安装的IMU传感器测量、32视角RGB视频和实例级分割、32视角2D和3D人体关键点检测。数据集的目录结构清晰，包括校准数据、物体模板、IMU预处理数据、关键点检测、原始视频、分割掩码和地面真值等。

创建时间：

2026-01-04

原始信息汇总

IMHD²: Inertial and Multi-view Highly Dynamic human-object interactions Dataset 概述

数据集简介

IMHD² 是一个专注于高动态人机交互（Human-Object Interactions, HOI）的数据集，全称为“Inertial and Multi-view Highly Dynamic human-object interactions Dataset”。该数据集旨在支持惯性感知的单目3D人机交互捕捉研究。

数据集特征

人体运动标注：采用 SMPL-H 格式，基于 EasyMocap 构建。
物体运动标注：基于 PHOSA 构建。
物体几何模型：使用 Polycam 进行高质量扫描。
惯性测量单元（IMU）数据：通过 Movella DOT 传感器采集，安装在物体上。
多视角RGB视频：包含32个视角的原始视频。
实例级分割：基于 SAM、Track-Anything 和 XMem 生成，提供人与物体的分离掩码。
2D与3D人体关键点检测：使用 ViTPose 和 MediaPipe 提供身体（OP25格式）和手部关键点。

数据集结构

数据集根目录为 data/，包含以下子目录：

calibrations/：相机内参和世界到相机的变换矩阵。
object_templates/：原始及下采样后的物体几何模型。
imu_preprocessed/：预处理后的IMU信号。
keypoints2d/：2D人体关键点（OP25格式）和手部关键点（MediaPipe格式）。
keypoints3d/：3D人体关键点（OP25格式）和手部关键点（MediaPipe格式）。
video_release/：32个多视角的原始视频。
mask_release/：32个多视角下人与物体的分离分割掩码。
ground_truth/：SMPL-H格式的人体运动标注和刚体物体运动标注。

标注文件按 <date>/<segment_name>/<sequence_name>/ 层级组织。部分序列的标注可能被分割为多个 .pkl 文件，文件名示例：gt_0_10_100.pkl 表示第一个运动片段，起始于第10帧，结束于第100帧。

使用方式

具体使用方法请参考官方 GitHub 仓库：https://github.com/AfterJourney00/IMHD-Dataset。

引用

如果使用本数据集或相关论文，请引用： bibtex @inproceedings{zhao2024imhoi, title={Im hoi: Inertia-aware monocular capture of 3d human-object interactions}, author={Zhao, Chengfeng and Zhang, Juze and Du, Jiashen and Shan, Ziwei and Wang, Junye and Yu, Jingyi and Wang, Jingya and Xu, Lan}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={729--741}, year={2024} }

许可协议

本数据集采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。许可协议链接：http://creativecommons.org/licenses/by-nc-sa/4.0/。

搜集汇总

数据集介绍

构建方式

在三维人机交互研究领域，IMHD²数据集的构建体现了多模态数据融合的前沿理念。该数据集通过部署32个多视角摄像头同步采集高动态RGB视频，并结合物体搭载的Movella DOT惯性测量单元捕捉精确的IMU信号。人体运动标注基于SMPL-H模型，借助EasyMocap系统实现；物体运动轨迹则通过PHOSA方法重建，并利用Polycam进行高精度几何扫描。此外，数据集整合了SAM、Track-Anything与XMem等先进算法，生成了实例级分割掩码，并通过ViTPose与MediaPipe提取了二维与三维人体关键点，形成了层次分明的多源数据体系。

使用方法

使用IMHD²数据集时，研究者可依据其清晰的目录结构访问各类数据。数据按日期、片段与序列层级组织，校准参数、物体模板、预处理IMU信号、二维与三维关键点、原始视频、分割掩码以及真值运动数据均存放于对应子文件夹中。具体使用时，需注意运动标注文件可能按时间片段拆分存储，文件命名格式如“gt_0_10_100.pkl”表示序列中从第10帧至第100帧的第一部分运动数据。用户可参考项目GitHub页面获取详细的数据加载与处理代码，以高效开展人机交互的三维捕捉与行为分析任务。

背景与挑战

背景概述

在计算机视觉与运动捕捉领域，精确重建三维人-物交互动态场景是一项前沿挑战，涉及人体姿态估计、物体运动跟踪与多模态数据融合。IMHD-Dataset（Inertial and Multi-view Highly Dynamic human-object interactions Dataset）于2024年由上海科技大学、浙江大学等机构的研究团队创建，旨在通过融合惯性测量单元数据与多视角视觉信息，解决高动态交互场景下三维运动捕捉的精度与鲁棒性问题。该数据集以SMPL-H人体模型、物体几何扫描及32视角RGB视频为基础，为人机交互、虚拟现实与机器人学提供了高质量基准，推动了单目惯性感知三维重建技术的发展。

当前挑战

IMHD-Dataset致力于应对高动态人-物交互三维重建的复杂挑战，其核心问题在于如何在剧烈运动与遮挡环境下，实现人体与物体运动的精确同步与空间对齐。构建过程中的挑战包括多模态数据的时间同步与空间标定、惯性传感器噪声的滤除、以及大规模多视角视频中实例级分割的准确性保障。此外，数据标注需整合SMPL-H人体参数、物体刚体运动与IMU信号，对标注一致性与计算资源提出了较高要求。

常用场景

经典使用场景

在三维人体-物体交互（HOI）研究领域，IMHD²数据集以其多视角视频、惯性测量单元（IMU）信号和精细的运动标注，为动态交互场景的捕捉与分析提供了关键支撑。该数据集最经典的使用场景在于训练和评估单目三维人体-物体交互重建算法，特别是在高度动态的复杂动作序列中，如体育运动或日常工具使用，研究者能够利用其同步的多模态数据，精确恢复人体与物体的三维姿态、形状及运动轨迹。

解决学术问题

IMHD²数据集主要解决了计算机视觉与图形学中单目动态三维重建的若干核心挑战。通过提供包含32个视角的RGB视频、实例级分割、IMU信号以及基于SMPL-H的人体运动标注和物体刚体运动标注，该数据集使得研究者能够深入探究在快速运动、遮挡频繁情况下的运动估计问题，有效推动了惯性信息与视觉信息融合的算法发展，并为解决动态交互中运动模糊、尺度歧义等长期难题提供了高质量的基准数据。

实际应用

该数据集的实际应用场景广泛延伸至虚拟现实、增强现实、人机交互及智能监控等领域。例如，在虚拟内容创作中，可利用其精确的人体与物体运动数据，生成高度逼真的动态交互动画；在机器人模仿学习中，机器人可通过学习数据集中记录的人类操作物体的物理交互模式，提升其操作技能与环境适应性；此外，在体育科学或康复训练分析中，该数据集也能为动作评估与优化提供详尽的运动学参考。

数据集最近研究