EgoDex

github2025-08-21 更新2025-08-26 收录

下载链接：

https://github.com/apple/ml-egodex

下载链接

链接失效反馈

官方服务：

资源简介：

EgoDex是一个大规模的第一人称视角灵巧操作数据集和基准，使用Apple Vision Pro上的ARKit收集。该数据集包含829小时的30Hz 1080p第一人称视角视频，配有头部、上半身和手部的3D姿态标注以及自然语言标注。完全由194个不同任务的主动桌面操作组成

EgoDex is a large-scale first-person perspective dexterous manipulation dataset and benchmark, collected using ARKit on Apple Vision Pro. This dataset contains 829 hours of 30Hz 1080p first-person perspective videos, accompanied by 3D pose annotations for the head, upper body and hands, as well as natural language annotations. It is entirely composed of active desktop manipulation tasks across 194 distinct tasks.

创建时间：

2025-08-20

原始信息汇总

EgoDex 数据集概述

数据集简介

EgoDex 是一个大规模以自我为中心的灵巧操作数据集和基准，通过 Apple Vision Pro 上的 ARKit 收集。数据集包含 829 小时的 30 Hz 1080p 以自我为中心的视频，配有头部、上半身和手部的配对 3D 姿态注释以及自然语言注释。数据集完全由 194 个不同任务的主动桌面操作组成。

数据集访问与下载

数据集分为训练集、测试集和额外数据，分别约为 725 小时、7 小时和 97 小时。训练集进一步分为 5 个 zip 文件以便于传输。

下载链接

训练集第 1 部分（300 GB）：https://ml-site.cdn-apple.com/datasets/egodex/part1.zip
训练集第 2 部分（300 GB）：https://ml-site.cdn-apple.com/datasets/egodex/part2.zip
训练集第 3 部分（300 GB）：https://ml-site.cdn-apple.com/datasets/egodex/part3.zip
训练集第 4 部分（300 GB）：https://ml-site.cdn-apple.com/datasets/egodex/part4.zip
训练集第 5 部分（300 GB）：https://ml-site.cdn-apple.com/datasets/egodex/part5.zip
测试集（16 GB）：https://ml-site.cdn-apple.com/datasets/egodex/test.zip
额外数据（200 GB）：https://ml-site.cdn-apple.com/datasets/egodex/extra.zip

数据集结构

每个 zip 文件包含按任务命名的文件夹，每个任务文件夹内有一组配对的 HDF5 文件和 MP4 文件。对应文件具有相同的索引（例如 0.hdf5 和 0.mp4）。

HDF5 文件结构

camera/intrinsic：3 x 3 相机内参，每个文件相同
transforms：所有关节变换，形状为 N x 4 x 4
- camera
- leftHand
- rightHand
- leftIndexFingerTip
- leftIndexFingerKnuckle
- （其他 64 个关节）
confidences：（可选）标量关节置信度，形状为 N
- leftHand
- rightHand
- （其他 66 个关节）

如果对应的 MP4 文件长度为 T 秒，则 N = 30 * T。

语言元数据注释

语言元数据注释可通过 HDF5 文件属性访问：

f.attrs[llm_description]
可逆任务还有 f.attrs[llm_description2]
使用 f.attrs[which_llm_description] 确定适用的描述（1 或 2）

社区项目

EgoDex Viewer：https://huggingface.co/spaces/pablovela5620/ego-dex-viewer
H-RDT：https://github.com/HongzheBi/H_RDT
Being-H0：https://beingbeyond.github.io/Being-H0/

许可证

数据集采用 CC-by-NC-ND 许可条款提供。

引用

@misc{egodex, title={EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video}, author={Ryan Hoque and Peide Huang and David J. Yoon and Mouli Sivapurapu and Jian Zhang}, year={2025}, eprint={2505.11709}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11709}, }

搜集汇总

数据集介绍

构建方式

在增强现实与灵巧操作研究领域，EgoDex数据集的构建采用了Apple Vision Pro设备结合ARKit技术进行大规模采集。该数据集通过头戴式设备以30Hz频率录制1080p的自我中心视角视频，同步获取头部、上半身及双手的三维姿态标注数据，并辅以自然语言描述。整个采集过程涵盖194种不同的桌面操作任务，总时长达到829小时，确保了任务多样性与数据规模的科学性。

特点

EgoDex数据集的核心特点体现在其多模态结构与精细标注体系上。所有视频片段均配有HDF5格式的三维姿态参数文件，包含相机内参、关节变换矩阵及置信度评分，并严格遵循SE(3)变换规范。语言标注通过大模型自动生成，虽存在少量误差但提供了丰富的语义上下文。数据集按任务划分存储，每个任务文件夹内视频文件与标注文件严格对应，为研究者提供了结构清晰、标注完备的多模态数据资源。

使用方法

针对EgoDex数据集的使用，研究者可通过官方提供的下载链接获取分卷压缩的训练集、测试集及附加数据。数据加载推荐采用PyTorch框架结合h5py库解析HDF5文件，利用torchcodec处理视频流。示例代码提供了三维姿态可视化、二维重投影及指标计算等基础功能，用户可依据研究需求调整数据处理流程。对于机器人应用场景，建议优先关注训练集中基础抓放任务的高质量语言标注数据，以实现更高效的模型训练与部署。

背景与挑战

背景概述

在机器人灵巧操作研究领域，大规模高质量数据集的匮乏长期制约着算法模型的泛化能力提升。EgoDex数据集由Apple研究团队于2025年创建，通过Apple Vision Pro搭载的ARKit系统采集了829小时的第一视角操作视频，涵盖194种桌面级操作任务。该数据集不仅提供30Hz高帧率视频流，更创新性地融合了头部、上半身及双手的三维姿态标注与自然语言描述，为视觉-动作联合建模研究奠定了重要基础。其多模态特性显著推动了从人类演示中学习精细操作策略的研究进程，成为具身智能领域的关键基准数据集。

当前挑战

该数据集致力于解决从人类演示中学习灵巧操作的跨模态映射难题，其核心挑战在于如何从高维视觉输入中提取有效的动作表征，并实现从观察学习到机器人执行的跨域迁移。构建过程中面临多重技术挑战：首先需要确保ARKit系统在复杂操作场景下持续稳定的三维姿态估计精度，特别是在手部遮挡频繁发生时保持跟踪鲁棒性；其次需解决多相机系统合成的RGB视频与三维标注数据间的视角对齐问题；此外自动化生成的语言描述存在语义偏差风险，需要建立有效的质量控制机制。海量数据的存储与传输亦构成工程挑战，原始数据总量超过1.5TB且需保持视频-标注数据的严格同步。

常用场景

经典使用场景

在具身智能与机器人操作研究中，EgoDex数据集为第一视角灵巧操作任务提供了关键基准。该数据集通过Apple Vision Pro采集的829小时高精度视频与三维姿态标注，覆盖194种桌面操作任务，成为训练视觉-运动协同模型的黄金标准。研究者利用其同步的多模态数据流，能够构建从视觉感知到动作执行的端到端学习框架，特别是在模仿学习与行为克隆领域展现出卓越价值。

实际应用

该数据集在服务机器人、工业自动化及AR/VR交互领域具有直接应用价值。基于EgoDex训练的模型可赋能机器人执行精细的物体抓取、装配等任务，其第一视角数据特性尤其适用于可穿戴设备的人机协作场景。在智能辅助系统中，这些数据能够用于开发实时动作指导系统，为医疗康复、技能培训等领域提供技术支持。

衍生相关工作

EgoDex已催生多项前沿研究，如H-RDT（Human-to-Robotics Diffusion Transformer）利用该数据集构建人机动作迁移框架，实现了从人类演示到机器人执行的跨域转换。Being-H0模型则通过融合MANO手部模型与EgoDex数据，建立了视觉-语言-动作的联合表征系统。这些工作显著推动了从人类演示中学习复杂操作技能的研究范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集