EgoMAN
收藏arXiv2025-12-19 更新2025-12-20 收录
下载链接:
https://egoman-project.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
EgoMAN是由Meta与华盛顿大学联合构建的大规模自我中心视角交互数据集,包含300+小时视频、1500+场景的219,000条6自由度手腕轨迹数据及300万结构化视觉-语言-运动问答对。数据集通过Aria眼镜采集,整合了EgoExo4D、Nymeria和HOT3D-Aria等多源数据,涵盖烹饪、自行车维修等日常活动,每条轨迹均标注了接近(approach)和操控(manipulation)双阶段时空信息。其创新性地采用GPT-4自动生成语义推理(21.6%)、空间推理(42.6%)和运动推理(35.8%)三类问答对,通过轨迹令牌(<START>/<CONTACT>/<END>)实现意图与运动的显式关联,为3D手部轨迹预测、人机交互及具身智能研究提供了首个融合多模态推理的基准平台。
EgoMAN is a large-scale egocentric interaction dataset jointly constructed by Meta and the University of Washington. It contains over 300 hours of video, 219,000 6-degree-of-freedom wrist trajectory entries across 1,500+ scenes, and 3 million structured visual-language-motion question-answering pairs. The dataset is collected via Aria glasses, and integrates multi-source data including EgoExo4D, Nymeria, and HOT3D-Aria. It covers daily activities such as cooking and bicycle repair. Each trajectory is annotated with two-stage spatio-temporal information for the approach and manipulation phases. Notably, this dataset innovatively uses GPT-4 to automatically generate three categories of question-answering pairs: semantic reasoning (21.6%), spatial reasoning (42.6%), and motion reasoning (35.8%). Explicit association between movement intent and motion is achieved through trajectory tokens (<START>/<CONTACT>/<END>). It serves as the first benchmark platform integrating multimodal reasoning for research in 3D hand trajectory prediction, human-computer interaction, and embodied intelligence.
提供机构:
Meta, 华盛顿大学
创建时间:
2025-12-19
原始信息汇总
EgoMAN 数据集概述
数据集名称
EgoMAN 数据集
核心描述
EgoMAN 是一个大规模的第一人称视角(Egocentric)数据集,用于支持交互阶段感知的3D手部轨迹预测。它包含219K个6自由度(6-DoF)手部轨迹和3M个结构化问答对,用于语义、空间和运动推理。
关键数据构成
- 轨迹数据:219,000个6自由度(6-DoF)手部轨迹。
- 问答对数据:3,000,000个结构化问答对,涵盖语义、空间和运动推理。
数据集特点与应用
- 主要任务:用于交互阶段感知的3D手部轨迹预测。
- 数据来源:源自第一人称视角的人类交互视频。
- 关联模型:与EgoMAN模型(一个从推理到运动的框架)共同提出,该框架通过轨迹-令牌接口连接视觉-语言推理和运动生成。
外部资源链接
- 论文:https://arxiv.org/abs/2512.16907
- 代码:标注为“Under Internal Review”。
搜集汇总
数据集介绍

构建方式
在构建EgoMAN数据集时,研究团队整合了多个大规模第一人称视角视频资源,包括EgoExo4D、Nymeria和HOT3D-Aria,形成了超过300小时的视觉素材。通过先进的大语言模型GPT-4.1,对视频片段进行自动化解析与标注,提取出原子级的手-物交互动作。每个交互被精细地划分为“接近”和“操纵”两个阶段,并辅以精确的时间戳。最终,数据集生成了21.9万条六自由度手腕轨迹数据,并构建了300万对结构化的视觉-语言-运动问答对,为模型理解交互的语义、空间和时序关系提供了多层次监督信号。
使用方法
EgoMAN数据集主要用于训练和评估意图驱动的三维手部轨迹预测模型。研究者通常采用渐进式训练策略:首先,利用数据集中丰富的问答对预训练一个推理模块,使其学会根据视觉输入、过去运动轨迹和语言意图描述,预测语义动作标记及阶段感知的关键路径点。随后,使用标注的六自由度轨迹数据预训练一个基于流匹配的运动专家模型。最后,通过一个紧凑的轨迹-标记接口将两个模块联合训练,使高层语义推理能够精准地指导连续三维运动生成。该数据集支持对模型在未见场景和分布外数据上的泛化能力进行严格评测。
背景与挑战
背景概述
随着增强现实与机器人辅助系统的发展,对三维手部轨迹预测的需求日益增长,尤其是在以自我为中心(egocentric)的交互场景中。EgoMAN数据集由Meta与华盛顿大学的研究团队于2025年提出,旨在解决现有数据集在语义监督与运动生成之间的脱节问题。该数据集整合了来自EgoExo4D、Nymeria和HOT3D-Aria等多个大规模自我中心视频资源,提供了超过219,000条六自由度手部轨迹及300万结构化问答对,覆盖语义、空间与运动推理。其核心研究问题聚焦于如何通过视觉-语言推理实现阶段感知的三维手部轨迹预测,从而推动具身智能、机器人操作等领域的进展。
当前挑战
EgoMAN数据集面临的挑战主要体现在两个方面:在领域问题层面,传统三维手部轨迹预测方法往往将运动与语义监督分离,导致模型难以生成与意图一致的长时程轨迹;同时,现有视觉-语言模型在生成连续平滑的高频动作序列方面存在局限,难以实现语义推理与运动生成的紧密对齐。在构建过程层面,数据整合涉及多源异构的自我中心视频,其轨迹标注常伴随传感器噪声与交互阶段模糊性;此外,大规模高质量六自由度轨迹数据的稀缺性,以及如何设计有效的结构化问答对以编码交互意图、时空关系与运动动态,均是构建过程中需要克服的关键难题。
常用场景
经典使用场景
在具身智能与机器人操作领域,EgoMAN数据集为三维手部轨迹预测提供了关键支持。该数据集通过整合大规模第一人称视角视频与结构化问答对,构建了意图驱动的交互阶段感知模型训练框架。其经典使用场景聚焦于从视觉、语言与运动线索中推断未来手部动作,例如在烹饪场景中预测“用左手打开炉灶”或“用右手拾取叉子”的完整轨迹。模型基于单帧RGB图像、过去手部运动序列及自然语言意图描述,生成长达五秒的六自由度手腕轨迹,精准捕捉接近、操作等关键阶段的空间与时间动态。
解决学术问题
EgoMAN数据集有效应对了三维手部轨迹预测中的核心学术挑战。传统方法常受限于数据规模不足、语义监督与运动解耦、以及意图与动作关联薄弱等问题。该数据集通过提供21.9万条六自由度轨迹与300万组结构化问答对,首次实现了语义、空间与运动推理的显式对齐。其标注体系明确了交互阶段(如接近、操作),使模型能够学习目标导向的时空模式,从而解决了长时程预测中意图模糊、泛化能力差等瓶颈,为视觉-语言-动作联合建模奠定了坚实基础。
实际应用
EgoMAN数据集的实际应用广泛覆盖机器人辅助操作与智能交互系统。在工业装配或家庭服务机器人场景中,系统可依据人类意图实时预测手部运动轨迹,实现前瞻性协作,例如提前递送工具或避让操作路径。在虚拟现实与增强现实领域,该技术能生成自然的手部动画,提升沉浸式体验的真实感。此外,基于意图的轨迹合成能力还可用于机器人模仿学习,通过观察人类视频数据直接推导出可执行的动作策略,显著降低机器人编程与调试的复杂度。
数据集最近研究
最新研究方向
在具身智能与计算机视觉领域,EgoMAN数据集正推动着以意图驱动的三维手部轨迹预测研究。该数据集通过整合大规模自我中心视角视频、结构化问答对及交互阶段标注,为模型提供了语义、空间与运动推理的联合监督。前沿研究聚焦于构建从推理到运动的生成框架,利用轨迹令牌接口连接视觉语言模型与流匹配运动专家,实现长时程、阶段感知的6自由度手部轨迹生成。这一方向不仅提升了轨迹预测的准确性与泛化能力,也为机器人操作、语言条件运动合成等应用奠定了数据与模型基础,标志着交互理解从被动感知向主动意图推理的重要演进。
相关研究论文
- 1Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction VideosMeta, 华盛顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成



