Embody 3D

Name: Embody 3D
Creator: Meta
Published: 2025-10-18 07:06:36
License: 暂无描述

arXiv2025-10-18 更新2025-11-05 收录

下载链接：

https://github.com/facebookresearch/embody-3d

下载链接

链接失效反馈

官方服务：

资源简介：

Embody 3D是由Meta的Codec Avatars Lab创建的一个多模态运动和行为数据集，包含500个个体小时，来自439名参与者的3D运动数据，超过5400万帧的跟踪3D运动。数据集包括广泛的单人运动数据，如提示动作、手势和运动；以及多人行为和对话数据，如讨论、不同情感状态下的对话、协作活动和公寓式空间中的共同生活场景。数据集包含手跟踪和身体形状的跟踪人体运动、文本注释以及每个参与者的单独音频轨道。

Embody 3D is a multimodal motion and behavior dataset created by Meta's Codec Avatars Lab. It contains 500 individual hours of 3D motion data from 439 participants, totaling over 54 million frames of tracked 3D motion. The dataset covers a wide range of single-person motion data, including cued actions, gestures, and locomotion; as well as multi-person behavior and dialogue data, such as discussions, conversations under different emotional states, collaborative activities, and co-living scenarios in apartment-style spaces. The dataset includes tracked human motion with hand tracking and body shape, textual annotations, and individual audio tracks for each participant.

提供机构：

Meta

创建时间：

2025-10-18

搜集汇总

数据集介绍

构建方式

在三维人体运动研究领域，数据采集的精度与规模往往难以兼得。Embody 3D通过构建专业的多模态采集系统突破这一局限，该系统配备80台2400万像素全局快门相机与640通道麦克风阵列，在6×6×3.6米空间内以30帧率同步采集数据。研究团队采用定制标定系统实现多相机几何校准，重投影误差中位数低于0.2像素。数据采集过程由研究助理全程监督，439名参与者依次完成校准动作与七类行为任务，最终通过人工质量评估确保54万帧运动数据的可靠性。

特点

该数据集的核心价值体现在其多维度的完整性。不仅涵盖单人的手势交互、位移运动等基础动作，更突破性地收录了多人在公寓场景中的协同生活、情感对话等复杂社交行为。所有三维运动数据均采用SMPL-X格式提供完整身体形态参数与手部追踪，配合基于波束成形技术的分角色音频流和人工标注的细粒度文本注释。这种多模态数据融合使得该数据集成为目前唯一同时具备大规模、高精度与行为多样性的三维运动数据库。

使用方法

研究者可通过数据集官网获取结构化数据资源，七个子类别均提供独立的数据包与元数据说明。运动数据以时序三维关键点序列形式存储，配合分角色的分离音频通道和场景级文本标注。建议使用者根据研究目标选择特定子集，如手势分析可专注手部交互类别，社交行为建模则宜采用多人与共同生活场景数据。所有数据均经过严格的时间同步与坐标系统一化处理，支持直接用于运动生成、行为理解等任务的模型训练与验证。

背景与挑战

背景概述

三维人体运动理解作为计算机视觉与人工智能交叉领域的前沿方向，长期受限于数据规模与质量的矛盾。2025年Meta Codec Avatars实验室发布的Embody 3D数据集，通过439名参与者构建的500个体小时三维运动数据库，涵盖54万帧多视角运动追踪数据，首次实现了单人多模态运动与多人社交行为的系统性采集。该数据集突破传统三维数据集在规模与完整性上的局限，通过80台高精度相机阵列与640通道麦克风系统，同步获取身体形态参数、手部运动轨迹及分离式音频流，为构建具身智能系统提供了前所未有的多模态基础支撑。

当前挑战

在三维运动建模领域，现有技术面临运动数据时空一致性保持与多模态对齐的双重挑战。传统二维数据集存在深度模糊与空间不一致性问题，而高质量三维数据集又受限于采集成本难以扩展规模。Embody 3D在构建过程中需攻克多相机同步校准的毫米级精度控制、密集场景下的多人运动轨迹解耦、以及语音信号与肢体动作的跨模态时序对齐等关键技术难题。特别是在多人交互场景中，如何通过波束成形技术实现重叠语音的精准分离，以及保持长期运动序列中身体形态参数稳定性，成为数据集质量保障的核心瓶颈。

常用场景

经典使用场景

在三维人体运动分析领域，Embody 3D数据集通过其大规模多模态特性，为运动生成与行为理解研究提供了核心支撑。该数据集涵盖单人多类动作提示、手势交互与位移行为，以及多人对话、协作活动等复杂场景，其54万帧高精度三维运动轨迹与SMPL-X格式的完整身体参数，为开发端到端的运动合成模型奠定了数据基础。研究者可基于多视角同步采集的80相机系统数据，构建从文本描述到三维动作的映射关系，推动生成式运动模型的泛化能力与真实性提升。

衍生相关工作

基于Embody 3D的多模态特性，学术界已衍生出多项突破性研究。其在三维动作-文本对齐任务中启发了新一代跨模态生成模型，例如结合光束成形音频的对话手势合成系统。数据集提供的多人交互场景催生了社会行为计算框架的开发，通过分析协作活动中的运动模式，构建了群体行为预测模型。此外，其精细的手部交互数据推动了触觉反馈与精细操作模拟的相关研究，为机器人模仿学习与动作规划提供了重要参照。

数据集最近研究