EgoMAN dataset

github2026-01-01 更新2026-01-05 收录

下载链接：

https://github.com/facebookresearch/egoman

下载链接

链接失效反馈

官方服务：

资源简介：

EgoMAN数据集是一个大规模的自中心数据集，用于交互阶段感知的3D手部轨迹预测，包含219K 6DoF轨迹和3M结构化QA对，用于语义、空间和运动推理。

The EgoMAN dataset is a large-scale egocentric dataset dedicated to 3D hand trajectory prediction for interaction-stage perception tasks. It contains 219K 6DoF trajectories and 3M structured QA pairs, which are used for semantic, spatial and motion reasoning.

创建时间：

2025-12-31

原始信息汇总

EgoMAN 数据集概述

数据集基本信息

数据集名称：EgoMAN 数据集
核心内容：一个用于交互阶段感知的 3D 手部轨迹预测的大规模第一人称（自我中心）数据集。
数据规模：包含 219K 条 6DoF 轨迹 和 300 万结构化问答对，用于语义、空间和运动推理。

数据集构成与特点

数据模态：结合了视觉（第一人称视频）、语言（结构化问答）和运动（6DoF 手部轨迹）信息。
核心标注：
- 6DoF 手部轨迹：包含 3D 位置（x, y, z）和四元数方向（qx, qy, qz, qw）。
- 结构化问答对：涵盖语义、空间和运动推理，用于训练推理模块。
交互阶段感知：数据标注了交互阶段（如接近、操作），支持阶段感知的轨迹预测。

数据来源与构建

源数据集：数据集从以下公开数据集构建：
构建流程：提供了一个包含 6 个步骤的自动化创建流水线脚本，从原始视频处理成带有标注和轨迹的结构化交互片段。

数据用途与任务

主要任务：基于第一人称视觉和文本意图描述的 3D 手部未来轨迹预测。
支持任务：
- 语义、空间和运动推理。
- 交互阶段（如接近、操作）识别与预测。

数据获取与使用说明

数据发布状态：未发布处理后的数据集和模型权重，原因在于法律和许可考虑。
可复现性：提供了完整的数据集创建脚本和模型代码，允许用户从源数据集自行构建。
使用准备：用户需自行下载上述源数据集，并按照提供的脚本流程处理以生成 EgoMAN 数据集。

评估基准

数据集包含一个用于评估的综合基准（EgoMAN Benchmark）。
评估指标：
- 轨迹精度：ADE, FDE, DTW, ROT。
- 路径点预测：Contact, Traj-Warp (Traj)。

许可信息

项目主体部分基于 CC-BY-NC 许可。
部分适配的功能代码（如来自 QwenVL3 和 FastChat）遵循其各自的许可条款（Apache 2.0 许可证）。

搜集汇总

数据集介绍

构建方式

在三维手部轨迹预测领域，现有数据集往往将运动数据与语义监督割裂，制约了模型对交互意图的理解。EgoMAN数据集的构建旨在弥合这一鸿沟，其通过一个精心设计的六步自动化流程，从原始的第一人称视角视频中提取出结构化的交互片段。该流程首先利用GPT-4.1对视频片段进行交互阶段（如接近、操作）的标注，随后通过规则与GPT结合过滤无效标注，并生成涵盖语义、空间与运动推理的非数值问答对。核心步骤包括从源数据集中提取六自由度手部轨迹，并基于轨迹数据生成需要定量推理的数值问答对，最终通过质量筛选确保轨迹的平滑性与物理合理性，从而整合出包含21.9万条轨迹与300万结构化问答对的大规模数据集。

使用方法

为利用EgoMAN数据集进行模型训练与评估，研究者需遵循一套清晰的流程。数据集本身虽未直接发布处理后的权重与数据，但代码库提供了完整的构建脚本，允许用户从EgoExo4D等源数据集开始复现。对于模型训练，需首先进行特征提取预处理，使用DINOv3提取图像视觉特征，并用CLIP编码动作文本嵌入。随后，训练遵循渐进式三阶段策略：首先在结构化问答对上预训练推理模块，接着在轨迹数据上预训练运动专家模块，最后通过轨迹-令牌接口进行联合微调，以实现推理与运动生成的精准对齐。评估时，可使用提供的基准测试脚本，计算轨迹精度与路径点预测等多种指标，全面衡量模型性能。

背景与挑战

背景概述

在计算机视觉与人机交互领域，从第一人称视角理解并预测人类手部运动轨迹是一项具有深远意义的研究课题。EgoMAN数据集由Meta与华盛顿大学的研究团队于2025年共同构建，旨在解决现有三维手部轨迹预测研究中语义监督与运动生成脱节的核心问题。该数据集规模宏大，包含21.9万条六自由度轨迹与300万组结构化问答对，通过深度融合视觉-语言推理与运动动力学，为交互阶段感知的轨迹预测奠定了数据基础。其创新性地将推理与动作生成相链接，推动了具身智能与增强现实等领域向更自然、更精准的人机协作方向发展。

当前挑战

EgoMAN数据集致力于解决三维手部轨迹预测中语义与运动割裂的挑战，其核心在于如何从以自我为中心的交互视频中，精准预测未来手部在三维空间中的运动路径，并理解其背后的交互意图与阶段。在构建过程中，研究团队面临多重困难：首先，从原始视频中自动化标注具有精确时间边界与语义描述的交互片段，需克服视频内容复杂性与标注一致性问题；其次，提取高质量、平滑的六自由度手部轨迹数据，涉及多源传感器数据的对齐、缺失帧的插补以及运动合理性的校验；最后，生成涵盖语义、空间与运动推理的大规模结构化问答对，需要设计复杂的自动化流程以确保问答的逻辑严谨性与数据多样性。

常用场景

经典使用场景

在具身智能与人机交互领域，EgoMAN数据集为三维手部轨迹预测提供了关键的研究基础。该数据集通过整合大规模的第一人称视角视频与结构化问答对，构建了包含21.9万条六自由度轨迹与300万组语义推理标注的丰富资源。其经典应用场景聚焦于训练端到端的推理-运动生成模型，使智能体能够根据当前视觉场景与语言指令，预测未来手部在三维空间中的精确运动路径，尤其适用于模拟人类在复杂日常任务中手眼协调的精细操作过程。

解决学术问题

该数据集有效解决了先前研究中将运动生成与语义推理割裂的学术瓶颈。传统方法往往依赖缺乏阶段感知的轨迹数据，或仅通过弱关联将视觉语言理解与动作生成耦合。EgoMAN通过提供交互阶段标注（如接近、操作）与多模态推理问答，使得模型能够学习从高层意图理解到低层运动执行的连贯映射。这推动了具身推理领域的发展，为构建能够进行因果推理与物理常识判断的智能系统奠定了数据基础。

实际应用

在实际应用层面，EgoMAN数据集为增强现实、机器人操作与智能辅助系统提供了重要的技术支撑。例如，在AR头戴设备中，系统可基于用户的实时视角与语音指令，预测其手部即将执行的动作轨迹，从而提前渲染虚拟交互界面或提供操作引导。在服务机器人领域，该数据有助于训练机器人理解人类操作意图并生成拟人化的抓取与操纵轨迹，提升人机协作的自然性与安全性。

数据集最近研究