MEgoHand Dataset

Name: MEgoHand Dataset
Creator: 北京大学计算机学院, 清华大学自动化系
Published: 2025-05-22 20:37:47
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.16602v1

下载链接

链接失效反馈

官方服务：

资源简介：

MEgoHand数据集是一个包含335万RGB-D帧、2.4万交互轨迹和1.2千个物体的多模态数据集，用于统一训练和评估。该数据集通过一个包含逆MANO重定向网络和虚拟RGB-D渲染器的标准化预处理流程进行标准化，以解决语言指令、标注质量和姿态表示方面的一致性问题。

The MEgoHand dataset is a multimodal dataset containing 3.35 million RGB-D frames, 24,000 interaction trajectories, and 1,200 objects, designed for unified training and evaluation. It is standardized via a standardized preprocessing pipeline that includes an inverse MANO reorientation network and a virtual RGB-D renderer, to address consistency issues in language instructions, annotation quality, and pose representation.

提供机构：

北京大学计算机学院, 清华大学自动化系

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

MEgoHand数据集的构建采用了创新的多模态整合策略，通过逆向MANO重定向网络和虚拟RGB-D渲染器实现了跨数据集标准化处理。研究团队系统整合了FPHA、HOI4D等六种公开数据集，利用深度估计模块将单目RGB图像转换为度量深度图，并开发了基于点云投影的虚拟渲染技术来生成对齐的深度数据。针对早期数据集仅提供关节坐标的问题，设计了两阶段迭代训练策略的逆向参数估计网络，将21个手部关键点坐标转化为标准化的MANO参数。最终构建的统一数据集包含335万帧RGB-D图像、2.4万条交互轨迹和1200个物体实例，覆盖了抓取、旋转等多样化操作场景。

特点

该数据集的核心特征体现在三个方面：多模态对齐的标注体系实现了视觉观察、文本指令与运动参数的统一表征；通过虚拟渲染技术弥补了原始数据深度通道的缺失，构建了完整的RGB-D模态；时空连续性方面采用16帧运动片段作为基本单元，配合时序正交滤波解码策略确保动作连贯性。区别于现有数据集对预设物体模型的依赖，本数据集通过视觉语言模型实现物体无关的空间推理，支持对未知物体的泛化能力。定量分析显示其手腕平移误差降低86.9%，关节旋转误差减少34.1%，在7个测试集上均达到当前最优性能。

使用方法

使用该数据集时需遵循多阶段处理流程：首先加载标准化后的MANO参数序列和对应的RGB-D帧，通过预训练的视觉语言模型提取文本指令嵌入和视觉特征；深度编码器将估计的深度图转换为几何特征，与语义特征进行跨模态融合。运动生成阶段采用基于DiT的流匹配策略，以初始手部参数为条件预测未来帧的相对变换。实践建议包括：利用时序重叠采样增强预测稳定性，通过Procrustes对齐消除全局坐标系差异，以及使用提供的评估指标（MPJPE、MPVE等）进行量化分析。数据集兼容LeRobot格式，支持高效的数据加载和分布式训练。

背景与挑战

背景概述

MEgoHand Dataset是由北京大学和清华大学的研究团队于2025年提出的多模态自我中心视角下的手-物交互运动生成数据集。该数据集旨在解决增强现实(AR/VR)和机器人模仿学习中的关键挑战，通过整合自我中心视角的RGB图像、文本描述和初始手部姿态，生成物理合理的手-物交互运动。数据集包含3.35M RGB-D帧、24K交互轨迹和1.2K物体，是目前该领域规模最大且最全面的数据集之一。MEgoHand的创新性在于其双层次架构设计，结合了视觉语言模型(VLM)的运动先验推理和基于DiT的流匹配策略，显著提升了运动生成的准确性和稳定性。

当前挑战

MEgoHand Dataset面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，自我中心视角带来的不稳定视点、频繁的自遮挡、透视畸变和头部运动噪声使得手-物交互运动的准确预测极具挑战性。现有方法依赖预定义的3D物体先验，难以泛化到新物体。在构建过程方面，数据集整合面临标注不一致的挑战，包括不同来源数据集在语言指令、标注质量和姿态表示上的差异。为解决这些问题，研究团队设计了逆向MANO重定向网络和虚拟RGB-D渲染器的标准化预处理流程，但处理大规模多源数据仍面临计算资源和标注一致性的挑战。

常用场景

经典使用场景

MEgoHand数据集在计算机视觉和增强现实领域具有广泛的应用价值，尤其在以自我为中心视角下的手-物体交互运动生成任务中表现突出。该数据集通过整合多模态输入（包括RGB图像、深度信息和文本指令），为研究者提供了一个统一的平台，用于开发和评估手-物体交互运动生成算法。其经典使用场景包括虚拟现实中的手部动作模拟、机器人模仿学习中的动作生成，以及增强现实中虚拟物体的精确操控。

解决学术问题

MEgoHand数据集解决了手-物体交互运动生成中的多个关键学术问题。首先，它通过引入视觉语言模型和深度估计模块，显著提升了模型对未知物体的泛化能力，克服了传统方法依赖预定义物体属性的局限性。其次，该数据集通过时间正交滤波技术有效缓解了由自我运动引起的观测噪声问题，提高了运动序列的时空一致性。此外，其提出的逆向MANO重定向网络和虚拟RGB-D渲染器解决了不同数据集间标注不一致的问题，为大规模多模态训练提供了标准化数据。

衍生相关工作

MEgoHand数据集衍生了一系列重要的相关研究工作。基于该数据集提出的双层次架构（高级'大脑'模块和低级运动生成模块）启发了后续多模态融合方法的发展。其时间正交滤波技术被广泛应用于时序运动生成任务中，有效提高了运动稳定性。此外，该数据集提出的标准化预处理流程（包括逆向MANO重定向和虚拟RGB-D渲染）已成为手-物体交互数据处理的基准方法，被多个后续工作采用和改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集