EgoAtlas

Name: EgoAtlas
Creator: 北京大学多媒体信息处理国家重点实验室；北京人工智能研究院
Published: 2025-11-22 00:32:36
License: 暂无描述

arXiv2025-11-22 更新2025-11-25 收录

下载链接：

https://aureleopku.github.io/METIS

下载链接

链接失效反馈

官方服务：

资源简介：

EgoAtlas是由北京大学与北京人工智能研究院联合构建的大规模多源具身操作数据集，整合了人类与机器人领域的八种异构数据源。该数据集包含34.3万条轨迹与8972万图像-动作对，涵盖基于视觉动作捕捉、VR交互与远程操作等多模态数据，并通过可穿戴手套系统采集了增强版人类手部运动数据。数据集通过统一动作空间实现跨载体对齐，采用运动感知动态表征精细捕捉手部操作细节，主要应用于灵巧操作任务中的视觉-语言-动作模型预训练，旨在解决机器人灵巧操作数据稀缺与泛化能力不足的核心瓶颈。

EgoAtlas is a large-scale multi-source embodied manipulation dataset jointly constructed by Peking University and the Beijing Academy of Artificial Intelligence. It integrates eight heterogeneous data sources from the fields of human and robotics research. This dataset contains 343,000 trajectories and 89.72 million image-action pairs, covering multimodal data such as visual motion capture, VR interaction and teleoperation, and collects enhanced human hand motion data via wearable glove systems. The dataset achieves cross-embodiment alignment through a unified action space, and adopts motion-aware dynamic representations to finely capture hand manipulation details. It is primarily applied to the pre-training of vision-language-action (VLA) models for dexterous manipulation tasks, aiming to address the core bottlenecks of limited data availability and insufficient generalization capacity in robotic dexterous manipulation.

提供机构：

北京大学多媒体信息处理国家重点实验室；北京人工智能研究院

创建时间：

2025-11-22

原始信息汇总

METIS数据集概述

数据集基本信息

数据集名称: METIS
核心目标: 构建用于灵巧操作的多源视觉-语言-动作模型
数据来源: 整合多源自我中心数据集

数据集构成

EgoAtlas数据集

性质: 多源自我中心操作数据集
特点: 整合大规模人类和机器人数据，在统一动作空间下进行统一
包含子数据集:
- EgoDex
- H2O
- ARCTIC
- HoloAssist
- OakInk
- PH2D-Human
- Self-collected
- ActionNet
- PH2D-Robot

动作空间

特点: 构建统一动作空间，弥合人类和机器人运动表示之间的差距

技术方法

运动感知动态学

性质: 紧凑且离散化的表示
设计目的: 专为灵巧操作设计
功能: 捕捉视觉和运动动态，为VLA训练提供高效且富有表现力的监督

性能表现

能力: 展示卓越的灵巧操作能力
成就: 在六个真实世界任务中实现最高平均成功率
优势: 在分布外场景中表现出卓越的泛化能力和鲁棒性

引用信息

bibtex @article{fu2025metis, title={METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model}, author={Fu, Yankai and Chen, Ning and Zhao, Junkai and Shan, Shaozhe and Yao, Guocai and Wang, Pengwei and Wang, Zhongyuan and Zhang, Shanghang}, journal={arXiv preprint arXiv:2511.17366}, year={2025} }

搜集汇总

数据集介绍

构建方式

在灵巧操作研究领域，数据稀缺性长期制约着模型泛化能力的发展。EgoAtlas通过整合多源异构数据构建大规模数据集，融合了基于视觉的运动捕捉系统、VR交互数据、遥操作机器人记录以及可穿戴手套系统采集的增强人类数据。该数据集采用统一动作空间对齐机制，将不同模态的手腕位姿与指尖轨迹映射至自我中心相机坐标系，并运用正向运动学与逆向运动学的双向转换框架，有效弥合了人类与机器人动作表征的语义鸿沟。

特点

EgoAtlas展现出多维度技术特征：其覆盖八类数据源共计34.3万条轨迹，形成包含8970万图像-动作对的大规模样本库。数据集通过运动感知动态建模技术，将视觉动态与运动轨迹分别离散化为紧凑的符号化表征，既保留了指尖微操作的细腻度，又通过层次化量化编码实现高效时序建模。特别设计的子任务级语义标注体系，为长视野推理任务提供结构化监督信号，而跨 embodiment 的统一坐标框架则确保了不同操作主体间的动作迁移一致性。

使用方法

该数据集支撑视觉-语言-动作模型的预训练与微调流程。研究者可加载统一格式的自我中心视觉流与动作序列，通过运动感知动态提取模块将连续动作离散化为视觉动态令牌与运动动态令牌。在模型架构中，这些令牌被嵌入至语言模型词汇表，配合链式思维推理机制实现指令分解与动作生成的协同优化。下游部署阶段，模型输出的符号化动作经逆向运动学解算可直接驱动多自由度灵巧手，其跨 embodiment 特性支持从人类演示到机器人执行的零样本迁移。

背景与挑战

背景概述

EgoAtlas数据集由北京大学与北京智源人工智能研究院于2025年联合构建，聚焦于解决灵巧操作任务中大规模动作标注数据稀缺的核心问题。该数据集整合了多源人类与机器人自我中心视角数据，涵盖ARCTIC、H2O等八个异构数据源，通过统一动作空间实现跨模态数据对齐。其创新性在于构建了可穿戴手套追踪系统，突破传统多相机系统的空间限制，为视觉-语言-动作模型提供了涵盖34.3万条轨迹、8970万图像-动作对的大规模预训练资源，显著推动了具身智能在精细操作领域的发展。

当前挑战

在灵巧操作领域，EgoAtlas需解决三大挑战：其一，人类与机器人数据存在视觉外观与动作空间的本质差异，需通过统一坐标系与运动表征实现跨载体泛化；其二，构建过程中面临多源数据异构性难题，涉及不同采集设备、场景约束与标注规范的深度融合；其三，动态感知建模要求同时捕捉视觉变化与运动细节，传统离散化方法难以平衡序列长度与运动精度，需开发紧凑且具表达力的运动感知动态表征。

常用场景

经典使用场景

在灵巧操作研究领域，EgoAtlas数据集通过整合多源自我中心视角数据，为视觉-语言-动作模型提供了标准化训练基础。该数据集最经典的应用场景体现在对精细手部动作的跨模态学习，研究者利用其统一动作空间下的轨迹数据，训练模型理解从抓取糖块到开启抽屉等复杂操作序列，显著提升了模型在真实环境中处理多步骤任务的能力。

衍生相关工作

EgoAtlas催生了多个标志性研究方向的突破。以METIS为代表的统一推理-行动框架首次实现了对长时序操作任务的端到端学习；GR00T系列研究通过隐式表征学习将人类数据先验注入人形机器人控制；运动对齐网络MotionTrans则开创了零样本技能迁移新范式。这些工作共同构建了从多源数据到通用灵巧操作能力的完整技术链条。

数据集最近研究