OpenEgo
收藏OpenEgo 数据集概述
数据集简介
OpenEgo 是一个多模态第一人称操作数据集,包含标准化的手部姿态标注和意图对齐的动作基元。该数据集整合了六个公开的第一人称数据集,用于支持从第一人称视频中学习灵巧操作,并促进视觉-语言-动作学习领域的可重复研究。
核心特征
- 数据规模:1107 小时的第一人称视频数据,涵盖 119.6M 帧
- 任务范围:290 个操作任务,包括厨房活动、组装和日常任务
- 记录数量:344.5k 条记录,分布在 600+ 个独特环境中(10 个厨房,610 个室内房间)
- 标准化标注:相机坐标系下的 21 关节 MANO 手部姿态
- 语言标注:带有时间戳的意图对齐动作基元
- 统一格式:所有数据集采用统一格式,确保一致的 API 访问
数据集构成
OpenEgo 整合了六个公开的第一人称数据集:
| 数据集 | 时长(小时) | 帧数 | 任务数 | 记录数 | 细粒度 | 灵巧操作 | 许可证 |
|---|---|---|---|---|---|---|---|
| CaptainCook4D | 54 | 5.6M | 24 | 200 | ✗ | ✗ | Apache 2.0 |
| HOI4D | 44 | 2.4M | 16 | 4k | ✗ | ✓ | CC BY-NC 4.0 |
| HoloAssist | 166 | 17.9M | 20 | 2.2k | ✓ | ✓ | CDLA v2 |
| EgoDex | 829 | 90M | 194 | 338k | ✗ | ✓ | CC BY-NC-ND 4.0 |
| HOT3D | 13.3 | 3.7M | 33 | 19 | ✗ | ✓ | CC BY-SA/BY-NC-SA 4.0 |
| HO-Cap | 0.67 | 73k | 3 | 64 | ✗ | ✓ | CC BY 4.0 |
所有数据集均经过处理,包含:
- 相机坐标系下的统一 21 关节 MANO 手部姿态格式
- 带有时间戳的意图对齐动作基元
- 标准化的元数据和标注
数据结构
数据集采用标准化目录结构:
openego/ ├── <基准名称>/ # 例如:HO-Cap、HOI4D 等 │ └── demo_<编号>/ # 例如:demo_0000、demo_0001 │ ├── video.mp4 # RGB 视频文件 │ ├── annotation.json # 动作标注 │ ├── joints.hdf5 # 手部关节数据 │ ├── metadata.hdf5 # 视频元数据 │ ├── original_metadata.hdf5 # 原始数据集元数据 │ └── license.txt # 可选许可证文件
数据格式详情
annotation.json
包含高级任务描述和细粒度动作基元: json { "task": "任务描述", "actions": [ { "start_timestamp": 开始时间戳, "end_timestamp": 结束时间戳, "objects": ["操作对象"], "actors": ["执行者"], "label": "动作标签" } ], "video_info": { "num_frames": 帧数, "duration": 时长, "fps": 帧率, "height": 高度, "width": 宽度 } }
joints.hdf5
- left_hand/right_hand:相机坐标系中的 3D 关节位置 [帧数, 21, 3]
- left_hand_visibility/right_hand_visibility:二进制可见性标志 [帧数]
- joint_names:MANO 关节命名(手腕 + 每根手指 4 个关节)
- intrinsics:用于 3D→2D 投影的相机内参矩阵 [3, 3]
语言标注
OpenEgo 提供意图对齐的语言基元:
- 指定带时间戳的操作对象和动作
- 包含执行者标签(left_hand、right_hand、both_hands、person)
- 描述从意图开始到完成的完整动作序列
应用领域
OpenEgo 支持以下研究方向:
- 语言条件模仿学习用于灵巧操作
- 从第一人称观察中预测 3D 手部轨迹
- 具有分层动作基元的视觉-语言-动作(VLA)模型
- 操作规划的世界模型
- 灵巧技能的人到机器人迁移
许可证信息
OpenEgo 代码库采用 MIT 许可证。包含的数据集保留其原始许可证,具体信息请参考:
- licenses/ 目录中的各个数据集许可证
- ATTRIBUTION.md 文件中的详细归属信息
数据获取
数据将通过 https://www.openegocentric.com 发布,下载脚本即将添加。
引用信息
bibtex @article{jawaid2025openego, title={OpenEgo: A Multimodal Egocentric Dataset for Dexterous Manipulation}, author={Jawaid, Ahad and Xiang, Yu}, year={2025}, archivePrefix={arXiv}, eprint={2509.05513} }




