OpenEgo

github2025-09-10 更新2025-09-13 收录

下载链接：

https://github.com/physicalinc/openego

下载链接

链接失效反馈

官方服务：

资源简介：

OpenEgo是一个多模态自我中心操作数据集，具有标准化的手部姿态标注和意图对齐的动作基元。该数据集整合了六个公共自我中心数据集，支持从自我中心视频中学习灵巧操作，并促进视觉-语言-动作学习领域的可重复研究。包含1107小时视频数据、119.6M帧、290个操作任务、344.5k条记录，覆盖600多个环境。

OpenEgo is a multimodal egocentric manipulation dataset with standardized hand pose annotations and intention-aligned action primitives. This dataset integrates six public egocentric datasets, supporting dexterous manipulation learning from egocentric videos and facilitating reproducible research in the field of vision-language-action learning. It contains 1107 hours of video data, 119.6 million frames, 290 manipulation tasks, 344.5k records, and covers over 600 environments.

创建时间：

2025-08-31

原始信息汇总

OpenEgo 数据集概述

数据集简介

OpenEgo 是一个多模态第一人称操作数据集，包含标准化的手部姿态标注和意图对齐的动作基元。该数据集整合了六个公开的第一人称数据集，用于支持从第一人称视频中学习灵巧操作，并促进视觉-语言-动作学习领域的可重复研究。

核心特征

数据规模：1107 小时的第一人称视频数据，涵盖 119.6M 帧
任务范围：290 个操作任务，包括厨房活动、组装和日常任务
记录数量：344.5k 条记录，分布在 600+ 个独特环境中（10 个厨房，610 个室内房间）
标准化标注：相机坐标系下的 21 关节 MANO 手部姿态
语言标注：带有时间戳的意图对齐动作基元
统一格式：所有数据集采用统一格式，确保一致的 API 访问

数据集构成

OpenEgo 整合了六个公开的第一人称数据集：

数据集	时长（小时）	帧数	任务数	记录数	细粒度	灵巧操作	许可证
CaptainCook4D	54	5.6M	24	200	✗	✗	Apache 2.0
HOI4D	44	2.4M	16	4k	✗	✓	CC BY-NC 4.0
HoloAssist	166	17.9M	20	2.2k	✓	✓	CDLA v2
EgoDex	829	90M	194	338k	✗	✓	CC BY-NC-ND 4.0
HOT3D	13.3	3.7M	33	19	✗	✓	CC BY-SA/BY-NC-SA 4.0
HO-Cap	0.67	73k	3	64	✗	✓	CC BY 4.0

所有数据集均经过处理，包含：

相机坐标系下的统一 21 关节 MANO 手部姿态格式
带有时间戳的意图对齐动作基元
标准化的元数据和标注

数据结构

数据集采用标准化目录结构：

openego/ ├── <基准名称>/ # 例如：HO-Cap、HOI4D 等 │ └── demo_<编号>/ # 例如：demo_0000、demo_0001 │ ├── video.mp4 # RGB 视频文件 │ ├── annotation.json # 动作标注 │ ├── joints.hdf5 # 手部关节数据 │ ├── metadata.hdf5 # 视频元数据 │ ├── original_metadata.hdf5 # 原始数据集元数据 │ └── license.txt # 可选许可证文件

数据格式详情

annotation.json

包含高级任务描述和细粒度动作基元： json { "task": "任务描述", "actions": [ { "start_timestamp": 开始时间戳, "end_timestamp": 结束时间戳, "objects": ["操作对象"], "actors": ["执行者"], "label": "动作标签" } ], "video_info": { "num_frames": 帧数, "duration": 时长, "fps": 帧率, "height": 高度, "width": 宽度 } }

joints.hdf5

left_hand/right_hand：相机坐标系中的 3D 关节位置 [帧数, 21, 3]
left_hand_visibility/right_hand_visibility：二进制可见性标志 [帧数]
joint_names：MANO 关节命名（手腕 + 每根手指 4 个关节）
intrinsics：用于 3D→2D 投影的相机内参矩阵 [3, 3]

语言标注

OpenEgo 提供意图对齐的语言基元：

指定带时间戳的操作对象和动作
包含执行者标签（left_hand、right_hand、both_hands、person）
描述从意图开始到完成的完整动作序列

应用领域

OpenEgo 支持以下研究方向：

语言条件模仿学习用于灵巧操作
从第一人称观察中预测 3D 手部轨迹
具有分层动作基元的视觉-语言-动作（VLA）模型
操作规划的世界模型
灵巧技能的人到机器人迁移

许可证信息

OpenEgo 代码库采用 MIT 许可证。包含的数据集保留其原始许可证，具体信息请参考：

licenses/ 目录中的各个数据集许可证
ATTRIBUTION.md 文件中的详细归属信息

数据获取

数据将通过 https://www.openegocentric.com 发布，下载脚本即将添加。

引用信息

bibtex @article{jawaid2025openego, title={OpenEgo: A Multimodal Egocentric Dataset for Dexterous Manipulation}, author={Jawaid, Ahad and Xiang, Yu}, year={2025}, archivePrefix={arXiv}, eprint={2509.05513} }

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，数据整合与标准化是推动算法泛化能力的关键。OpenEgo数据集通过系统整合六个公开的以自我为中心视角数据集（CaptainCook4D、HOI4D、HoloAssist、EgoDex、HOT3D和HO-Cap），采用统一的21关节MANO手部姿态标注格式，将原始数据转换为相机坐标系下的标准化表示。每个数据样本均包含时间戳对齐的动作基元标注，确保多模态数据在时空维度上的一致性，最终形成涵盖1107小时视频、119.6M帧的规模化数据集。

特点

该数据集的核心价值体现在其多模态与精细化标注的深度融合。除了包含290种操作任务的以自我为中心视角视频，还提供了标准化的3D手部关节轨迹数据，以及意图对齐的语言标注体系。每个动作基元均标注了起始时间、操作对象和执行手部信息，支持从“左手拿起茶杯”到“双手拆卸相机外壳”等复杂操作的细粒度解析。数据集覆盖600多个独特环境场景，为视觉-语言-动作学习提供了丰富的跨场景泛化基础。

使用方法

研究者可通过OpenEgoDataProvider接口高效访问多模态数据，支持按需加载视频帧、关节数据、标注信息等不同模态。数据读取采用标准化API设计，用户可通过索引直接获取演示样本，并通过Action类解析时间戳对齐的动作序列。数据集提供完整的3D到2D投影功能，支持手部轨迹的可视化分析，适用于语言条件模仿学习、3D手部轨迹预测等研究方向，为具身智能算法开发提供一站式数据支持。

背景与挑战

背景概述

在具身智能与人机交互研究领域，多模态自我中心视角数据对于理解人类灵巧操作行为具有重要意义。OpenEgo数据集由Ahad Jawaid与Yu Xiang等人于2025年创建，整合了六个公开的自我中心数据集，形成包含1107小时视频、119.6M帧画面、290种操作任务的综合资源。该数据集通过标准化21关节MANO手部姿态标注和意图对齐的动作基元，为视觉-语言-动作学习提供了统一基准，显著推动了灵巧操作技能模仿学习与三维手部轨迹预测研究的发展。

当前挑战

构建OpenEgo数据集面临多重挑战：在领域问题层面，需解决自我中心视角下复杂操作任务的细粒度动作解析难题，包括手物交互时空对齐、多模态信号融合以及意图驱动的动作语义标注。在构建过程中，技术挑战集中于异构数据源的标准化处理，涉及不同坐标系下的手部姿态统一转换、多数据集标注体系的语义对齐，以及大规模视频数据与三维关节数据的时序同步。此外还需协调不同数据集的许可协议，确保学术使用的合规性。

常用场景

经典使用场景

在具身智能研究领域，OpenEgo数据集为灵巧操作任务提供了多模态学习范本。研究者通过其统一标注的1107小时自我中心视角视频，能够训练模型理解人类手部动作与视觉感知的对应关系。该数据集特别适用于构建从视觉观察到动作执行的端到端学习框架，模型可同时处理RGB视频流、标准化21关节点手部姿态数据以及意图对齐的语言标注，实现精细动作的时序分析与模式识别。

衍生相关工作

OpenEgo催生了多个视觉-语言-动作模型的重要研究。基于其统一标注体系，研究者开发了分层动作预测网络和跨模态对齐算法。该数据集启发的经典工作包括端到端模仿学习框架、三维手部姿态生成模型，以及结合语言指令的动作序列生成系统。这些成果显著推进了具身智能领域在真实场景中的操作能力，为后续多模态学习研究设立了新的技术标准。

数据集最近研究