EgoTwin
收藏arXiv2025-08-18 更新2025-08-22 收录
下载链接:
https://egotwin.pages.dev/
下载链接
链接失效反馈官方服务:
资源简介:
EgoTwin是一个基于扩散Transformer架构的联合视频-运动生成框架,旨在以一致且因果连贯的方式生成第一人称视频和人体运动。为了评估其性能,研究人员构建了一个大规模的真实世界数据集,其中包含同步的文本-视频-运动三元组,并设计了新的指标来评估视频-运动的连贯性。该数据集对于研究可穿戴计算、增强现实和具身智能体等领域具有重要意义。
EgoTwin is a joint video-motion generation framework based on the diffusion Transformer architecture, which aims to generate first-person videos and human motions in a consistent and causally coherent manner. To evaluate its performance, researchers constructed a large-scale real-world dataset containing synchronized text-video-motion triples, and designed new metrics to assess the coherence between video and motion. This dataset holds significant importance for research in fields such as wearable computing, augmented reality, and embodied AI Agents.
提供机构:
新加坡国立大学, 南洋理工大学, 香港科技大学, 上海人工智能实验室
创建时间:
2025-08-18
搜集汇总
数据集介绍

构建方式
EgoTwin数据集的构建依托于Nymeria大规模真实世界数据集,通过Project Aria眼镜采集第一人称视角视频,并配合Xsens惯性动作捕捉系统记录全身运动数据。文本描述由人工标注生成,形成文本-视频-运动三元组。数据经过严格过滤与分段处理,生成约17万条5秒时长的样本,并划分为训练集、验证集和测试集,确保人物与场景在测试集中未见。
特点
该数据集的核心特点在于其多模态同步性与因果一致性。视频模态以480×480分辨率、8帧/秒的速率呈现,运动模态则采用23关节的Xsens骨架结构、16帧/秒的采样率。创新性地提出以头部关节为中心的运动表征,显式暴露头部位姿与相机运动的关联,并设计双向注意力机制建模视觉观察与人体动作间的因果交互,从而支撑视角对齐与动态推理。
使用方法
EgoTwin支持多种生成范式:基于文本的联合视频-运动生成(T2VM)、以文本与运动为条件的视频生成(TM2V),以及以文本与视频为条件的运动生成(TV2M)。采用三阶段训练策略,包括运动VAE训练、文本-运动预训练及联合多模态训练。推理时通过分类器无关引导算法实现可控生成,并可进一步利用运动推导的相机位姿进行三维高斯泼溅重建,实现生成内容与三维场景的无缝集成。
背景与挑战
背景概述
2025年由新加坡国立大学、南洋理工大学、香港科技大学及上海人工智能实验室联合发布的EgoTwin数据集,标志着第一人称视觉与人体运动联合生成研究的重要突破。该数据集聚焦于解决可穿戴计算、增强现实和具身智能领域中的关键问题,即如何实现自我中心视频与穿戴者运动轨迹的精确同步生成。通过大规模真实世界的文本-视频-运动三元组数据,EgoTwin为多模态生成模型提供了前所未有的训练与评估基础,推动了视角一致性与因果交互建模的理论与实践发展。
当前挑战
EgoTwin面临两大核心挑战:视角对齐要求生成视频的相机轨迹必须严格匹配人体运动推导出的头部轨迹,而传统外中心视频生成方法无法适应由穿戴者运动内在决定相机位姿的设定;因果交互需建模视觉观测与人体动作间的闭环反馈,当前动作受历史视觉上下文影响,同时新生成的动作又改变后续帧的空间场景。构建过程中需克服运动表示范式转换的困难,将根中心坐标重构为头中心表示,并设计跨模态注意力机制以实现精细时序同步。
常用场景
经典使用场景
在可穿戴计算与具身智能研究领域,EgoTwin数据集通过同步的文本-视频-运动三元组数据,为第一人称视角下的视觉与运动联合生成任务提供了关键支撑。其典型应用场景包括基于文本描述生成视角一致且因果连贯的自我中心视频与人体运动序列,例如根据“进入房间并开门”的指令同步合成头部运动轨迹与对应的视觉画面动态。
实际应用
在增强现实与机器人交互等实际场景中,EgoTwin支持生成符合物理规律的自我中心视觉-运动序列,例如模拟AR眼镜使用者的动态视角或训练具身智能体的环境交互能力。通过提取运动数据中的相机位姿,还可直接驱动三维高斯泼溅进行场景重建,实现虚拟人与真实场景的实时融合,为沉浸式交互应用提供数据支撑。
衍生相关工作
该数据集衍生了基于扩散Transformer的多模态生成架构创新,如头部中心运动表征范式与异步扩散训练策略。相关经典工作包括结合3D高斯泼溅的场景重建技术、基于因果注意力的视频-运动交互机制,以及针对视角一致性评估的TransErr与RotErr度量标准,为后续联合生成任务建立了基准评估体系与模型设计范式。
以上内容由遇见数据集搜集并总结生成



