five

OpenEgo

收藏
github2025-09-10 更新2025-09-13 收录
下载链接:
https://github.com/physicalinc/openego
下载链接
链接失效反馈
官方服务:
资源简介:
OpenEgo是一个多模态自我中心操作数据集,具有标准化的手部姿态标注和意图对齐的动作基元。该数据集整合了六个公共自我中心数据集,支持从自我中心视频中学习灵巧操作,并促进视觉-语言-动作学习领域的可重复研究。包含1107小时视频数据、119.6M帧、290个操作任务、344.5k条记录,覆盖600多个环境。

OpenEgo is a multimodal egocentric manipulation dataset with standardized hand pose annotations and intention-aligned action primitives. This dataset integrates six public egocentric datasets, supporting dexterous manipulation learning from egocentric videos and facilitating reproducible research in the field of vision-language-action learning. It contains 1107 hours of video data, 119.6 million frames, 290 manipulation tasks, 344.5k records, and covers over 600 environments.
创建时间:
2025-08-31
原始信息汇总

OpenEgo 数据集概述

数据集简介

OpenEgo 是一个多模态第一人称操作数据集,包含标准化的手部姿态标注和意图对齐的动作基元。该数据集整合了六个公开的第一人称数据集,用于支持从第一人称视频中学习灵巧操作,并促进视觉-语言-动作学习领域的可重复研究。

核心特征

  • 数据规模:1107 小时的第一人称视频数据,涵盖 119.6M 帧
  • 任务范围:290 个操作任务,包括厨房活动、组装和日常任务
  • 记录数量:344.5k 条记录,分布在 600+ 个独特环境中(10 个厨房,610 个室内房间)
  • 标准化标注:相机坐标系下的 21 关节 MANO 手部姿态
  • 语言标注:带有时间戳的意图对齐动作基元
  • 统一格式:所有数据集采用统一格式,确保一致的 API 访问

数据集构成

OpenEgo 整合了六个公开的第一人称数据集:

数据集 时长(小时) 帧数 任务数 记录数 细粒度 灵巧操作 许可证
CaptainCook4D 54 5.6M 24 200 Apache 2.0
HOI4D 44 2.4M 16 4k CC BY-NC 4.0
HoloAssist 166 17.9M 20 2.2k CDLA v2
EgoDex 829 90M 194 338k CC BY-NC-ND 4.0
HOT3D 13.3 3.7M 33 19 CC BY-SA/BY-NC-SA 4.0
HO-Cap 0.67 73k 3 64 CC BY 4.0

所有数据集均经过处理,包含:

  • 相机坐标系下的统一 21 关节 MANO 手部姿态格式
  • 带有时间戳的意图对齐动作基元
  • 标准化的元数据和标注

数据结构

数据集采用标准化目录结构:

openego/ ├── <基准名称>/ # 例如:HO-Cap、HOI4D 等 │ └── demo_<编号>/ # 例如:demo_0000、demo_0001 │ ├── video.mp4 # RGB 视频文件 │ ├── annotation.json # 动作标注 │ ├── joints.hdf5 # 手部关节数据 │ ├── metadata.hdf5 # 视频元数据 │ ├── original_metadata.hdf5 # 原始数据集元数据 │ └── license.txt # 可选许可证文件

数据格式详情

annotation.json

包含高级任务描述和细粒度动作基元: json { "task": "任务描述", "actions": [ { "start_timestamp": 开始时间戳, "end_timestamp": 结束时间戳, "objects": ["操作对象"], "actors": ["执行者"], "label": "动作标签" } ], "video_info": { "num_frames": 帧数, "duration": 时长, "fps": 帧率, "height": 高度, "width": 宽度 } }

joints.hdf5

  • left_hand/right_hand:相机坐标系中的 3D 关节位置 [帧数, 21, 3]
  • left_hand_visibility/right_hand_visibility:二进制可见性标志 [帧数]
  • joint_names:MANO 关节命名(手腕 + 每根手指 4 个关节)
  • intrinsics:用于 3D→2D 投影的相机内参矩阵 [3, 3]

语言标注

OpenEgo 提供意图对齐的语言基元:

  • 指定带时间戳的操作对象和动作
  • 包含执行者标签(left_hand、right_hand、both_hands、person)
  • 描述从意图开始到完成的完整动作序列

应用领域

OpenEgo 支持以下研究方向:

  • 语言条件模仿学习用于灵巧操作
  • 从第一人称观察中预测 3D 手部轨迹
  • 具有分层动作基元的视觉-语言-动作(VLA)模型
  • 操作规划的世界模型
  • 灵巧技能的人到机器人迁移

许可证信息

OpenEgo 代码库采用 MIT 许可证。包含的数据集保留其原始许可证,具体信息请参考:

  • licenses/ 目录中的各个数据集许可证
  • ATTRIBUTION.md 文件中的详细归属信息

数据获取

数据将通过 https://www.openegocentric.com 发布,下载脚本即将添加。

引用信息

bibtex @article{jawaid2025openego, title={OpenEgo: A Multimodal Egocentric Dataset for Dexterous Manipulation}, author={Jawaid, Ahad and Xiang, Yu}, year={2025}, archivePrefix={arXiv}, eprint={2509.05513} }

搜集汇总
数据集介绍
main_image_url
构建方式
在具身智能研究领域,数据整合与标准化是推动算法泛化能力的关键。OpenEgo数据集通过系统整合六个公开的以自我为中心视角数据集(CaptainCook4D、HOI4D、HoloAssist、EgoDex、HOT3D和HO-Cap),采用统一的21关节MANO手部姿态标注格式,将原始数据转换为相机坐标系下的标准化表示。每个数据样本均包含时间戳对齐的动作基元标注,确保多模态数据在时空维度上的一致性,最终形成涵盖1107小时视频、119.6M帧的规模化数据集。
特点
该数据集的核心价值体现在其多模态与精细化标注的深度融合。除了包含290种操作任务的以自我为中心视角视频,还提供了标准化的3D手部关节轨迹数据,以及意图对齐的语言标注体系。每个动作基元均标注了起始时间、操作对象和执行手部信息,支持从“左手拿起茶杯”到“双手拆卸相机外壳”等复杂操作的细粒度解析。数据集覆盖600多个独特环境场景,为视觉-语言-动作学习提供了丰富的跨场景泛化基础。
使用方法
研究者可通过OpenEgoDataProvider接口高效访问多模态数据,支持按需加载视频帧、关节数据、标注信息等不同模态。数据读取采用标准化API设计,用户可通过索引直接获取演示样本,并通过Action类解析时间戳对齐的动作序列。数据集提供完整的3D到2D投影功能,支持手部轨迹的可视化分析,适用于语言条件模仿学习、3D手部轨迹预测等研究方向,为具身智能算法开发提供一站式数据支持。
背景与挑战
背景概述
在具身智能与人机交互研究领域,多模态自我中心视角数据对于理解人类灵巧操作行为具有重要意义。OpenEgo数据集由Ahad Jawaid与Yu Xiang等人于2025年创建,整合了六个公开的自我中心数据集,形成包含1107小时视频、119.6M帧画面、290种操作任务的综合资源。该数据集通过标准化21关节MANO手部姿态标注和意图对齐的动作基元,为视觉-语言-动作学习提供了统一基准,显著推动了灵巧操作技能模仿学习与三维手部轨迹预测研究的发展。
当前挑战
构建OpenEgo数据集面临多重挑战:在领域问题层面,需解决自我中心视角下复杂操作任务的细粒度动作解析难题,包括手物交互时空对齐、多模态信号融合以及意图驱动的动作语义标注。在构建过程中,技术挑战集中于异构数据源的标准化处理,涉及不同坐标系下的手部姿态统一转换、多数据集标注体系的语义对齐,以及大规模视频数据与三维关节数据的时序同步。此外还需协调不同数据集的许可协议,确保学术使用的合规性。
常用场景
经典使用场景
在具身智能研究领域,OpenEgo数据集为灵巧操作任务提供了多模态学习范本。研究者通过其统一标注的1107小时自我中心视角视频,能够训练模型理解人类手部动作与视觉感知的对应关系。该数据集特别适用于构建从视觉观察到动作执行的端到端学习框架,模型可同时处理RGB视频流、标准化21关节点手部姿态数据以及意图对齐的语言标注,实现精细动作的时序分析与模式识别。
衍生相关工作
OpenEgo催生了多个视觉-语言-动作模型的重要研究。基于其统一标注体系,研究者开发了分层动作预测网络和跨模态对齐算法。该数据集启发的经典工作包括端到端模仿学习框架、三维手部姿态生成模型,以及结合语言指令的动作序列生成系统。这些成果显著推进了具身智能领域在真实场景中的操作能力,为后续多模态学习研究设立了新的技术标准。
数据集最近研究
最新研究方向
在具身智能与机器人操作领域,OpenEgo数据集正推动多模态感知与动作生成的深度融合研究。当前前沿聚焦于基于第一视角视频的手部轨迹预测模型开发,结合意图对齐的语言标注实现细粒度动作分解与重建。该数据集支持视觉-语言-动作三元学习框架的构建,为灵巧操作技能的人类-机器人迁移提供关键数据基础,尤其在厨房任务和日常物品操纵场景中展现出重要应用价值。其标准化的21关节MANO手部姿态标注与多环境数据整合,为三维手部运动分析与跨数据集泛化研究建立了新基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作