EI-30k
收藏arXiv2026-02-13 更新2026-02-15 收录
下载链接:
https://pku-epic.github.io/LDA
下载链接
链接失效反馈官方服务:
资源简介:
EI-30k是由北京大学和Galbot等机构联合构建的大规模具身交互数据集,涵盖真实与仿真环境中人类和机器人的30k小时异构轨迹数据,采用统一格式和末端执行器坐标系对齐。该数据集通过标准化处理整合了不同质量(高/低质量演示、无标注视频)和来源(机器人遥操作、仿真、人类演示)的数据,支持视觉预测、动力学学习和策略训练。其创建过程涉及多模态数据采集、动作表示对齐及DINO潜在空间编码,旨在为机器人基础模型LDA-1B提供通用数据支撑,解决异构数据利用率低、动力学知识迁移困难等核心问题,推动接触操作、灵巧手控制等复杂任务的泛化能力提升。
EI-30k is a large-scale embodied interaction dataset jointly constructed by Peking University, Galbot and other institutions. It covers 30,000 hours of heterogeneous trajectory data of humans and robots in both real and simulated environments, with unified formatting and end-effector coordinate system alignment. This dataset integrates data of varying quality (high/low-quality demonstrations, unannotated videos) and from diverse sources (robot teleoperation, simulation, human demonstrations) via standardized processing, supporting visual prediction, dynamics learning and policy training. Its development involves multi-modal data collection, action representation alignment and DINO latent space encoding. It aims to provide general data support for the robot foundation model LDA-1B, addressing core issues such as low utilization rate of heterogeneous data and difficulties in dynamics knowledge transfer, and promoting the improvement of generalization capabilities for complex tasks including contact manipulation and dexterous hand control.
提供机构:
北京大学; Galbot; 中国科学院自动化研究所; 北京智源人工智能研究院; 清华大学; 中山大学; 英伟达
创建时间:
2026-02-13
原始信息汇总
LDA-1B 数据集概述
数据集基本信息
- 数据集名称: LDA-1B (Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion)
- 关联数据集: EI-30k (Embodied Interaction Dataset)
- 数据规模: 超过 30,000 小时的人类与机器人交互轨迹数据
- 数据格式: 统一格式的异构数据
- 数据内容: 包含不同片段长度和操作任务的人类与机器人交互数据
- 数据状态: 数据即将发布 (Coming Soon)
核心模型与方法
- 模型名称: LDA-1B
- 模型规模: 10亿参数 (1B-parameter)
- 核心架构: 基于统一多模态扩散变换器框架,联合去噪动作块并预测未来视觉特征
- 表示空间: 在结构化 DINO 潜在空间中操作,避免冗余的像素空间外观建模,专注于任务相关特征
- 训练特点: 通过通用具身数据摄入进行扩展,为不同质量的数据分配不同角色,支持大规模稳定训练
性能表现
- 模拟与真实世界实验:
- 在接触丰富任务上优于先前方法(如 π0.5)达 21%
- 在灵巧操作任务上优于先前方法达 48%
- 在长视野任务上优于先前方法达 23%
- 数据高效微调: 利用通常有害且被丢弃的 30% 低质量轨迹,可获得 10% 的性能提升
- 真实世界机器人平台测试:
- 夹爪操作 (Galbot): 在八个任务(拾放、接触丰富、精细、长视野)上,LDA-1B 优于 GR00T-N1.6 和 π0.5。
- 灵巧操作:
- 在 BrainCo(低自由度)上的三个任务。
- 在 Sharpa(高自由度)上的两个任务。
- LDA-1B 优于基线模型,在精细和高自由度任务上获得最大增益。
模型演示任务
- 人形机器人夹爪操作:
- 通用拾放
- 交接
- 扔垃圾
- 翻转盒子
- 浇花
- 清扫桌子
- 敲击积木
- 擦拭白板
- SharpaWave 灵巧手灵巧操作:
- 夹蛋糕
- 翻转面包
- 盖胶水瓶盖
- 拾放蛋糕
- 舀玩具
- BrainCo 灵巧手灵巧操作:
- 拾放瓶子
- 拔钉子
- 打开 MacBook
- 打开烤箱
- 拧开瓶盖
- 掀开盖子
实验机器人平台
- Galbot G1 配备标准两指平行夹爪,用于基本抓取任务。
- Galbot G1 配备 SharpaWave 灵巧手(22 自由度),用于精细操作。
- Unitree G1 配备 BrainCo 灵巧手(10 自由度)和 Zed Mini 相机。
- 平台说明: 该多平台设置展示了 LDA 模型在不同机器人形态和末端执行器上的泛化能力。
扩展分析
- 数据扩展: 联合训练(蓝色)通过多样化数据稳步减少误差;仅策略训练(灰色)在添加低质量数据时性能下降。该框架将此类噪声转化为有用的监督。
- 模型扩展: LDA(蓝色)稳步改进;UWM(灰色)随着数据增加而饱和并性能下降。LDA-1B 得益于潜在动力学和混合频率变换器,能够稳定扩展。
相关资源
- 论文: https://pku-epic.github.io/LDA
- 代码: https://pku-epic.github.io/LDA
- 数据: https://pku-epic.github.io/LDA (即将发布)
- 检查点: https://pku-epic.github.io/LDA (即将发布)
- BibTeX: 见数据集详情页面。
搜集汇总
数据集介绍

构建方式
在具身智能领域,大规模、高质量且格式统一的数据集是推动机器人基础模型发展的关键基石。EI-30k数据集的构建遵循了系统性的整合与标准化流程,旨在解决现有数据源高度碎片化的问题。该数据集汇集了超过三万小时的异构具身交互轨迹,涵盖真实世界机器人数据、仿真机器人数据、带动作标注的人类演示数据以及无动作的人类视频。所有数据均被统一转换为LeRobot格式,确保了观测、动作和语言指令在表示上的一致性。尤为关键的是,通过手动对齐不同机器人和人类演示的末端执行器坐标系,并利用视觉语言模型对语言标注进行语义归一化,该数据集实现了跨平台、跨形态的几何与语义对齐,为大规模联合训练提供了坚实基础。
特点
EI-30k数据集的核心特点在于其规模宏大、质量异构且格式高度统一。其数据总量超过三万小时,在现有具身交互数据集中位居前列,为模型提供了极其丰富的学习素材。数据集并非单纯追求高质量专家数据,而是战略性地包含了不同质量层级的轨迹,从精确的遥操作数据到带有噪声或次优动作的轨迹,乃至无动作标注的大规模人类视频,这种异质性使得数据能够根据其监督质量扮演互补角色。此外,所有子数据集均附有明确的质量标签,支持质量感知的学习范式。通过统一的末端执行器中心动作表示和标准化的数据格式,EI-30k成功打破了不同数据源在存储格式、传感器配置和动作表示上的壁垒,实现了真正的“即插即用”式数据聚合。
使用方法
EI-30k数据集专为支持基于统一世界模型范式的机器人基础模型预训练而设计。在使用时,研究者可根据数据质量标签,实施角色感知的通用数据吸收策略。例如,高质量的人类和机器人演示可用于共同训练策略学习、动力学建模和视觉预测等多个目标;质量较低的轨迹则专注于动力学学习和视觉预测,避免对次优行为模式进行过拟合;而无动作的人类视频则专门用于训练指令条件下的视觉预测目标,提供丰富的场景动态先验。该数据集与潜在动力学学习框架(如在结构化DINO潜在空间中进行预测)紧密结合,能够有效避免像素空间冗余外观建模的干扰。通过这种差异化利用方式,EI-30k使得模型能够从混合质量的数据中最大化地提取可迁移的动力学知识,从而实现模型与数据规模的稳定扩展。
背景与挑战
背景概述
EI-30k数据集作为机器人基础模型LDA-1B的核心支撑,于2026年由北京大学、Galbot、CASIA、BAAI、清华大学、中山大学及NVIDIA等机构联合构建,旨在解决异构具身数据在统一世界模型框架下的规模化利用难题。该数据集汇集了超过30,000小时的人类与机器人交互轨迹,覆盖真实与仿真环境,通过标准化格式与对齐的动作表征,为机器人学习提供了前所未有的数据规模与多样性。其核心研究问题聚焦于如何有效整合不同质量的数据源,以促进可迁移的动力学知识学习,从而推动机器人基础模型从单纯的行为克隆向统一动力学建模的范式转变,对具身智能领域的数据驱动研究产生了深远影响。
当前挑战
EI-30k数据集所解决的领域问题在于异构具身数据的统一利用,其挑战主要体现在如何将不同来源、质量及格式的数据整合为一致的训练资源,以支持机器人基础模型的规模化动力学学习。具体而言,构建过程中面临的挑战包括:第一,数据标准化与对齐的复杂性,需将多样化的传感器配置、动作表征及坐标系统一至共享的末端执行器坐标系;第二,质量标注与清理的精细度要求,需在保留低质量轨迹以提供动力学先验的同时,避免噪声数据对策略学习的干扰;第三,视觉表征的冗余建模问题,传统像素空间中的状态预测易受光照、纹理等无关因素干扰,阻碍对交互相关动力学的有效学习。
常用场景
经典使用场景
在具身智能领域,大规模异构数据的有效利用是构建通用机器人基础模型的核心挑战。EI-30k数据集作为LDA-1B模型的关键支撑,其最经典的使用场景在于为统一世界模型(UWM)提供标准化、多质量的训练数据。该数据集整合了超过三万小时的真实与仿真机器人轨迹、带动作标注的人类演示以及无动作的人类视频,通过统一的LeRobot格式和对齐的末端执行器坐标系,使得模型能够依据数据质量差异进行角色化训练。高质量轨迹同时支持策略与动力学学习,低质量轨迹专注于动力学建模,而无动作视频则用于视觉预测,这种精细化的数据使用范式使得模型能够从异构数据中提取可迁移的物理交互知识,从而在接触丰富、灵巧操作和长时程任务中实现稳定且高效的性能扩展。
实际应用
在实际应用层面,EI-30k数据集为开发适应复杂真实场景的机器人系统提供了关键数据支撑。基于该数据集预训练的LDA-1B模型在仿真与真实世界的多种操作任务中展现出卓越的泛化与适应能力。例如,在家庭服务场景中,机器人可完成从简单抓放到使用工具进行精细灵巧操作(如用锤子拔钉子、用铲子翻转食物)等一系列任务。该模型能够有效利用混合质量的遥操作数据进行少量样本微调,在接触丰富的操作和长时程任务中显著提升成功率,降低了实际部署中对大量专家级演示数据的依赖。这种能力使得机器人能够更快速、经济地适应新的 embodiment 和任务,为制造业、物流、家庭服务等领域的自动化解决方案提供了切实可行的技术路径。
衍生相关工作
EI-30k数据集的构建与发布,直接催生并支撑了LDA-1B这一标志性机器人基础模型的工作,同时也为相关领域的研究提供了宝贵的资源与启发。该数据集所倡导的通用具身数据吸收范式、基于DINO的结构化潜在空间动力学学习以及多模态扩散Transformer架构,已成为后续研究的重要参考。其数据统一与质量标注方法为构建更大规模、更多样化的具身交互数据集树立了范例。可以预见,该数据集将促进一系列围绕异构数据利用、潜在世界模型、跨 embodiment 策略迁移以及数据高效微调等方面的衍生工作,推动整个领域向更高效、更通用的机器人基础模型方向发展,并为开源社区提供可扩展的数据集标准与处理流程。
以上内容由遇见数据集搜集并总结生成



