360◦-Motion Dataset
收藏arXiv2024-12-11 更新2024-12-12 收录
下载链接:
https://fuxiao0719.github.io/projects/3dtrajmaster/
下载链接
链接失效反馈官方服务:
资源简介:
360◦-Motion Dataset是由香港中文大学和快手科技合作创建的一个用于视频生成的高质量3D运动数据集。该数据集通过收集3D人类和动物资产,并使用GPT生成轨迹模板,结合12个均匀分布的相机在多样化的3D场景中捕捉运动。数据集的创建过程包括资产的统一缩放、轨迹生成、场景布置和运动捕捉,旨在解决视频生成中多实体3D运动控制的挑战。该数据集主要应用于虚拟电影制作、游戏中的3D虚拟场景探索以及实体AI系统的世界模型构建。
360°-Motion Dataset is a high-quality 3D motion dataset for video generation, jointly created by The Chinese University of Hong Kong and Kuaishou Technology. This dataset is constructed by collecting 3D human and animal assets, generating trajectory templates with GPT, and capturing motions in diverse 3D scenes using 12 uniformly distributed cameras. The dataset creation workflow encompasses unified asset scaling, trajectory generation, scene arrangement, and motion capture, with the goal of addressing the challenge of multi-entity 3D motion control in video generation. This dataset is primarily applied in virtual filmmaking, 3D virtual scene exploration in video games, and world model construction for embodied AI systems.
提供机构:
香港中文大学
创建时间:
2024-12-11
搜集汇总
数据集介绍

构建方式
360◦-Motion Dataset的构建方式基于先进的虚幻引擎(UE)渲染技术。首先,收集了70个包含人类和动物的3D动画资产,并将其缩放到统一的立方体空间中。接着,使用GPT生成这些资产的3D轨迹模板,涵盖位置和方向信息。通过将这些资产与生成的轨迹模板结合,并在多样化的3D场景(如城市、沙漠、森林等)中进行排列组合,最终使用12个均匀分布的环绕摄像头捕捉这些资产的3D运动,生成100帧的视频片段,分辨率为384×672。
特点
360◦-Motion Dataset的主要特点在于其高度的多样性和精确的3D轨迹信息。数据集包含了人类和动物的多样化3D资产,并通过GPT生成的轨迹模板确保了轨迹的多样性和复杂性。此外,使用12个环绕摄像头捕捉的3D运动数据能够提供全方位的视角,确保了数据集在3D空间中的广泛覆盖和精确性。
使用方法
360◦-Motion Dataset主要用于训练和评估3D轨迹控制的视频生成模型。用户可以通过输入实体的3D轨迹和描述,生成符合这些轨迹的3D运动视频。数据集的多样性和精确性使其适用于多种应用场景,如虚拟电影制作、游戏开发和具身AI系统的训练。此外,数据集还可以用于研究3D运动控制和视频生成模型的泛化能力。
背景与挑战
背景概述
360◦-Motion Dataset 是由香港中文大学、快手科技和浙江大学联合开发的一个专门用于视频生成中多实体3D运动控制的数据集。该数据集的创建旨在解决现有视频生成方法中2D控制信号无法充分表达3D运动特性的问题。通过引入3DTrajMaster模型,研究人员能够利用用户定义的6自由度(6DoF)姿态序列来精确控制多实体在3D空间中的运动。数据集的核心是通过12个均匀分布的摄像头捕捉3D场景中的运动,结合GPT生成的轨迹模板,构建了多样化的3D运动数据。该数据集的开发为视频生成领域提供了新的基准,特别是在虚拟电影制作、游戏开发和具身AI系统等领域具有广泛的应用前景。
当前挑战
360◦-Motion Dataset 的构建面临两大主要挑战。首先,现有视频数据集中实体多样性较低,主要集中在人类和自动驾驶车辆,且空间分布不一致,导致模型泛化能力受限。其次,当前的6D姿态估计算法主要针对刚性物体,对非刚性物体(如动物)的支持不足,导致姿态估计的准确性较低。为了克服这些挑战,研究人员通过Unreal Engine渲染技术,收集了多样化的3D资产,并利用GPT生成轨迹模板,确保了数据集的统一性和多样性。此外,为了防止视频领域偏移,研究人员还引入了视频领域适配器和退火采样策略,以提高视频质量和运动控制的准确性。
常用场景
经典使用场景
360◦-Motion Dataset 最经典的使用场景在于支持多实体的3D运动控制,特别是在视频生成领域。该数据集通过提供丰富的3D轨迹和实体描述,使得模型能够精确地控制视频中多个实体的运动轨迹和姿态。例如,在电影制作中,可以通过输入实体的6DoF(六自由度)姿态序列,生成具有复杂3D运动的多实体视频,从而实现虚拟场景中的精细运动控制。
实际应用
360◦-Motion Dataset 在实际应用中具有广泛的前景。例如,在电影制作中,可以通过该数据集生成复杂的3D运动场景,模拟真实世界中的动态行为;在自动驾驶领域,可以用于模拟危险场景,帮助训练自动驾驶系统;在游戏开发中,可以生成多样化的3D角色运动,提升游戏的沉浸感。此外,该数据集还可用于训练机器人和虚拟助手,使其能够更好地理解和模拟人类行为。
衍生相关工作
基于360◦-Motion Dataset,许多相关工作得以展开。例如,研究者们开发了3DTrajMaster模型,该模型能够利用3D轨迹和实体姿态序列生成高质量的视频。此外,该数据集还启发了其他研究者探索如何通过3D运动控制来提升视频生成的多样性和真实感。未来,随着更多3D资产和轨迹数据的加入,预计将有更多基于该数据集的创新工作涌现,推动视频生成技术的发展。
以上内容由遇见数据集搜集并总结生成



