D2E

Name: D2E
Creator: MAUM.AI
Published: 2025-10-07 16:40:33
License: 暂无描述

arXiv2025-10-07 更新2025-10-09 收录

下载链接：

https://arxiv.org/abs/2510.05684v1

下载链接

链接失效反馈

官方服务：

资源简介：

D2E数据集由MAUM.AI创建，是一个用于机器人具身AI任务预训练的数据集。该数据集包含超过1.3K小时的数据，包括259小时的人类演示和1K+小时的伪标签游戏玩法。D2E数据集通过OWA Toolkit收集，并使用Generalist-IDM模型进行伪标签生成。该数据集被用于训练VAPT模型，并在LIBERO操作和CANVAS导航基准测试中取得了96.6%和83.3%的成功率。

The D2E dataset, created by MAUM.AI, is a dataset designed for pre-training robotic embodied AI tasks. It contains over 1.3K hours of data, including 259 hours of human demonstrations and more than 1,000 hours of pseudo-labeled game playthroughs. The dataset is collected via the OWA Toolkit, and pseudo-labels are generated using the Generalist-IDM model. This dataset is used to train the VAPT model, achieving success rates of 96.6% and 83.3% on the LIBERO manipulation and CANVAS navigation benchmarks respectively.

提供机构：

MAUM.AI

创建时间：

2025-10-07

原始信息汇总

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

基本信息

标题: D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
arXiv ID: arXiv:2510.05684v1
提交日期: 2025年10月7日
学科分类: 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV); 机器人学 (cs.RO)
作者: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee

摘要

大型语言模型利用互联网规模的文本数据，而具身人工智能仍受限于物理轨迹收集的高昂成本。桌面环境（特别是游戏）提供了一个引人注目的替代方案：它们在保持具身学习所必需的结构化观察-动作耦合的同时，提供了大规模的丰富传感器运动交互。本文提出了D2E（桌面到具身AI）框架，证明了桌面交互可以作为机器人具身AI任务的有效预训练基础。与先前局限于特定领域（例如Minecraft的VPT）或保持数据专有（例如SIMA）的工作不同，D2E建立了一个从可扩展桌面数据收集到具身领域验证迁移的完整流程。

框架组成

OWA工具包：将多样化的桌面交互统一为标准格式，并实现152倍的压缩。
Generalist-IDM：通过基于时间戳的事件预测，在未见过的游戏中实现强大的零样本泛化，支持互联网规模的伪标签生成。
VAPT：将桌面预训练的表征迁移到物理操作和导航任务。

数据与性能

数据规模：使用超过1,300小时的数据（包括259小时的人类演示和1,000+小时的伪标签游戏玩法）。
性能指标：
- 在LIBERO操作基准测试中达到96.6%的成功率。
- 在CANVAS导航基准测试中达到83.3%的成功率。

结论与贡献

验证了数字交互中的传感器运动基元具有足够的不变性，能够有意义地迁移到物理具身任务，确立了桌面预训练作为机器人学的实用范式。所有工作将公开，包括OWA工具包、人类收集和伪标签的数据集以及VAPT训练模型。

资源链接

论文PDF: https://arxiv.org/pdf/2510.05684v1
DOI: https://doi.org/10.48550/arXiv.2510.05684

搜集汇总

数据集介绍

构建方式

在桌面交互数据规模化采集的背景下，D2E数据集通过开放式世界智能体工具包实现了多模态数据的系统化构建。该工具包基于Windows API与GStreamer框架，以60Hz频率同步采集屏幕画面、键盘输入与鼠标事件，并通过创新的OWAMcap格式实现152倍数据压缩。数据采集涵盖31款跨类型游戏应用，由14名标注者累计录制335小时高质量演示，同时通过时间戳事件预测技术对YouTube游戏视频进行伪标注，最终形成包含259小时人工标注与1055小时伪标注的复合数据集。

使用方法

在具身智能研究领域，该数据集通过视觉动作预训练框架实现知识迁移。研究者可基于通用逆动力学模型进行跨域动作推理，利用其事件序列自回归生成能力对未标注视频进行自动化扩展。下游任务适配时，预训练表征可微调至机器人操作与导航任务，在LIBERO机械臂操控基准中取得96.6%的成功率，在CANVAS导航任务中实现83.3%的性能表现。数据集采用分阶段训练策略，支持在保留事件时序结构的前提下进行序列打包优化，配合自适应批解码算法实现119.16帧/秒的处理吞吐量。

背景与挑战

背景概述

D2E数据集由MAUM.AI与斯坦福大学、首尔大学等机构于2025年联合创建，旨在解决具身智能领域因物理轨迹数据采集成本高昂而受限的核心问题。该数据集创新性地利用桌面交互环境作为视觉-动作预训练的基础，通过整合游戏场景中的丰富传感器运动模式，构建了包含335小时人工演示与超1000小时伪标注数据的多模态语料库。其提出的通用逆动力学模型与标准化数据采集工具链，显著降低了具身智能研究的硬件门槛，为跨领域知识迁移提供了可扩展的范式。

当前挑战

在解决具身智能领域问题时，D2E需应对数字环境与物理世界间的语义鸿沟，确保桌面交互中学习的传感器运动基元能有效迁移至机器人操作与导航任务。数据构建过程中面临多模态时序对齐的技术挑战，需通过高精度时间戳同步屏幕、键盘与鼠标事件流。此外，伪标注流程需克服跨游戏泛化难题，在保持动作预测准确性的同时适应异构界面布局与交互逻辑，这对模型架构设计与数据压缩存储提出了极高要求。

常用场景

解决学术问题

D2E数据集有效解决了具身智能领域长期面临的数据稀缺难题。传统机器人轨迹收集需要昂贵的硬件设备和复杂的人工操作，而桌面交互数据以极低成本提供了互联网规模的学习资源。该数据集验证了数字传感器运动模式向物理具身任务迁移的可行性，在LIBERO操作任务上达到96.6%的成功率，在CANVAS导航任务上实现83.3%的性能表现，为构建通用智能体开辟了新的技术路径。

实际应用

在实际应用层面，D2E框架已成功部署于机器人操作与导航系统。基于桌面预训练的表征显著提升了机器人执行复杂任务的能力，特别是在长时序操作和误导性指令场景下表现出卓越鲁棒性。OWA工具包的高效压缩技术将存储需求降低152倍，使得大规模视觉-动作模型训练在普通计算资源上成为可能，为工业机器人和服务机器人的智能化升级提供了实用化解决方案。

数据集最近研究