EMHI

Name: EMHI
Creator: PICO
Published: 2024-08-30 18:12:13
License: 暂无描述

arXiv2024-08-30 更新2024-09-04 收录

下载链接：

https://arxiv.org/pdf/2408.17168v1

下载链接

链接失效反馈

官方服务：

资源简介：

EMHI是一个多模态的第一人称动作数据集，由PICO机构创建，包含885个序列，记录了58名参与者在VR环境中执行的39种动作。数据集内容包括同步的立体图像和IMU信号，以及SMPL格式的姿态标注。数据集的创建过程涉及使用VR头显和身体穿戴的IMU设备进行数据采集，并通过多视角相机系统和OptiTrack进行时空同步和标注。EMHI数据集主要应用于虚拟现实和增强现实领域，旨在解决第一人称视角下的人体姿态估计问题，特别是在自遮挡和视角变化等挑战下的准确性问题。

EMHI is a multimodal first-person action dataset created by PICO, consisting of 885 sequences that record 39 distinct actions performed by 58 participants in VR environments. The dataset includes synchronized stereo images, IMU signals, and SMPL-formatted pose annotations. The dataset creation process involves data collection using VR headsets and wearable body IMU devices, as well as spatiotemporal synchronization and annotation via multi-view camera systems and OptiTrack. The EMHI dataset is primarily applied in the fields of virtual reality (VR) and augmented reality (AR), aiming to address the accuracy issues of human pose estimation from a first-person perspective, especially under challenges such as self-occlusion and viewpoint changes.

提供机构：

PICO

创建时间：

2024-08-30

搜集汇总

数据集介绍

构建方式

EMHI数据集的构建采用了多模态融合的方法，结合了头部佩戴的显示设备（HMD）和身体穿戴的惯性测量单元（IMU）的数据。数据收集过程中，参与者执行了各种动作，同时通过头戴设备上的双目向下倾斜相机和身体上的IMU传感器收集数据。为了确保数据的高质量，使用了多视图相机系统进行SMPL格式的地面真实数据获取，并通过IMU数据进行准确性和一致性改进。数据采集系统包括EgoSensorKit、Kinect系统和Optitrack系统，三者协同工作，实现了数据的时空同步和空间对齐。此外，数据集还包含了在不同环境光照条件下收集的数据，以增强数据集的多样性。

特点

EMHI数据集的特点在于其多模态性和高质量的数据。数据集提供了同步的双目向下倾斜的第一人称视角图像和全身IMU信号，并包含SMPL格式的准确人体姿态标注。数据集由58位参与者执行39种动作的885个序列组成，总记录时间约为28.5小时。此外，数据集还包括个体属性，如身高、BMI和服装描述，以及动作标签。为了验证数据集的可靠性，进行了与基于光学标记的SMPL拟合结果的比较，结果表明数据集具有较高的准确性。

使用方法

EMHI数据集的使用方法涉及多个方面。首先，数据集可以用于训练和评估基于图像或IMU信号的人体姿态估计方法。其次，数据集的多模态特性使其成为开发融合视觉和IMU数据的多模态人体姿态估计方法的重要资源。此外，数据集还可以用于研究人体运动分析、虚拟现实/增强现实应用等领域。为了进一步推动该领域的研究，研究团队还提出了MEPoser，一种新的基准方法，该方法利用多模态融合编码器、时间特征编码器和基于MLP的回归头来实现实时的人体姿态估计。在EMHI数据集上的实验结果表明，MEPoser在准确性方面优于现有的单模态方法，并展示了多模态数据融合在解决第一人称人体姿态估计问题中的价值。

背景与挑战

背景概述

EMHI数据集是一项针对VR/AR应用中的第一人称视角人体姿态估计（HPE）的多模态数据集。该数据集由Zhen Fan等人于2024年8月提出，旨在克服现有方法中由于自遮挡、视角变化、IMU数据的稀疏性和漂移等问题导致的准确率低下的难题。EMHI数据集提供了来自真实VR设备头戴式显示器（HMD）的双目向下倾斜相机拍摄的第一人称视角图像和来自身体穿戴式IMU的信号，以及SMPL格式的姿态标注。该数据集包含了58名受试者执行的39个动作的885个序列，总时长约为28.5小时。EMHI数据集的发布对于推动第一人称视角HPE的研究具有重要意义，并为VR/AR产品的实际应用提供了宝贵的数据资源。

当前挑战

EMHI数据集在解决第一人称视角HPE问题方面面临着以下挑战：1）第一人称视角图像中的自遮挡和视角变化导致难以获取准确的全身体姿态；2）IMU数据的稀疏性和漂移问题限制了姿态估计的准确性。为了应对这些挑战，EMHI数据集采用了多模态融合的方法，结合第一人称视角图像和IMU数据，以提供更全面和准确的人体姿态估计。此外，EMHI数据集的构建过程中也面临着一些挑战，例如：1）需要保证多模态数据的同步性和精确性；2）需要解决标注过程中可能出现的错误和偏差。为了克服这些挑战，EMHI数据集采用了先进的硬件设备和算法，并通过多次验证和手动检查确保数据质量。

常用场景

经典使用场景

EMHI数据集在VR/AR应用中具有广泛的应用前景，特别是在第一人称视角的人体姿态估计（HPE）领域。该数据集提供了同步的立体第一人称视角图像和身体穿戴的IMU信号，以及SMPL格式的姿态注释，为研究第一人称视角的人体运动提供了丰富的数据资源。

衍生相关工作

基于EMHI数据集，研究人员提出了多种新的第一人称视角HPE方法，如MEPoser等。这些方法通过融合多模态数据，提高了姿态估计的准确性和鲁棒性，为第一人称视角HPE领域的研究和应用提供了新的思路和方向。

数据集最近研究