360°-Motion Dataset

github2024-12-11 更新2024-12-12 收录

下载链接：

https://github.com/KwaiVGI/3DTrajMaster

下载链接

链接失效反馈

官方服务：

资源简介：

360°-Motion Dataset是一个用于视频生成中多实体运动控制的3D轨迹数据集，包含多种实体和背景，以及复杂的3D轨迹。

The 360°-Motion Dataset is a 3D trajectory dataset designed for multi-entity motion control in video generation, which contains various entities, backgrounds and complex 3D trajectories.

创建时间：

2024-12-06

原始信息汇总

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

数据集概述

数据集名称

360°-Motion Dataset

数据集下载地址

Hugging Face 数据集链接

数据集版本

V1.0.0

数据集内容

视频分辨率: (1) 480×720 (2) 384×672
帧数/时长/帧率: 99/3.3s/30
UE场景: 6 (1沙漠+5HDRIs)
视频样本数: (1) 36,000 (2) 36,000
Hemi12_transforms.json: 12个环绕摄像机
CharacterInfo.json: 实体提示
RefPic: 50种动物
轨迹模板: 36/60/35 (共121个)
{D/N}_{locX}: {白天/夜晚}_{位置X}
{C}_ {XX}_{35mm}: {特写镜头}{摄像机索引(1-12)}{焦距}

数据集结构

├── 360Motion-Dataset ├── 480_720/384_672 ├── Desert (desert) ├── location_data.json ├── HDRI ├── loc1 (snowy street) ├── loc2 (park) ├── loc3 (indoor open space) ├── loc11 (gymnastics room) ├── loc13 (autumn forest) ├── location_data.json ├── RefPic ├── CharacterInfo.json ├── Hemi12_transforms.json

数据集与内部模型的差异

参数	发布的数据集	内部数据集
视频分辨率	(1) 480×720 (2) 384×672	384×672
实体	50 (所有动物)	70 (20人类+50动物)
视频样本	(1) 36,000 (2) 36,000	54,000
场景	6	9 (+城市, 森林, 亚洲小镇)
轨迹模板	121	96

数据集加载

更改根路径到 dataset，使用提供的脚本加载数据集（视频 & 实体 & 姿态序列）。 bash python load_dataset.py
使用 Open3D 可视化 6DoF 姿态序列。 bash python vis_trajecotry.py

数据集评估

3D轨迹评估

更改根路径到 eval/GVHMR，按照 GVHMR 安装准备设置。
下载由内部视频扩散模型生成的推理视频和相应的评估GT姿态。 bash bash download_eval_pose.sh
评估集上的人体姿态估计。 bash python tools/demo/demo_folder.py -f eval_sets -d outputs/eval_sets_gvhmr -s
所有人体样本的评估（注意转换左右手坐标系）。 bash python tools/eval_pose.py -f outputs/eval_sets_gvhmr

视觉质量评估

更改根路径到 eval/common_metrics_on_video_quality，下载 fvd、推理视频和基础T2V推理视频。 bash bash download_eval_visual.sh
FVD、FID 和 CLIP-SIM 指标的评估。 bash pip install pytorch-fid clip bash eval_visual.sh

搜集汇总

数据集介绍

构建方式

360°-Motion Dataset通过结合多种实体和背景场景，构建了一个包含复杂3D轨迹的多实体运动数据集。该数据集利用6自由度（DoF）控制实体在3D空间中的位置和方向，涵盖了从城市到森林等多种背景环境。数据集中的轨迹模板设计包括3D遮挡、原地旋转、180°/连续90°转弯等复杂运动模式，确保了轨迹的多样性和真实性。此外，数据集还提供了详细的实体提示信息，允许用户对实体的外观进行精细调整，如改变人物的头发、服装、性别等。

特点

该数据集的显著特点在于其高度的多样性和复杂性。首先，数据集支持多种实体类型，包括人类、动物、机器人、汽车等，甚至包括抽象的火焰和微风等。其次，背景场景丰富多样，从沙漠到冰川，从城市到室内空间，几乎涵盖了所有常见的自然和人工环境。此外，数据集中的3D轨迹设计复杂，能够模拟多种现实世界中的运动模式，如遮挡、旋转和转弯等。最后，数据集提供了精细的实体提示信息，允许用户对实体的外观和行为进行个性化定制。

使用方法

用户可以通过访问Hugging Face平台下载360°-Motion Dataset，并使用提供的脚本加载数据集。数据集的加载脚本能够生成视频和实体的姿态序列，用户可以通过Open3D等工具进行可视化。此外，数据集还提供了多种轨迹模板，用户可以根据需要选择或自定义轨迹。对于希望使用内部视频模型的用户，可以通过提交请求获取生成的视频。数据集的使用方法灵活多样，适用于多种视频生成和分析任务。

背景与挑战

背景概述

360°-Motion Dataset是由香港中文大学、快手科技和浙江大学联合开发的一个专注于多实体三维运动轨迹的视频生成数据集。该数据集的核心研究问题是如何在三维空间中控制一个或多个实体的运动轨迹，以支持文本到视频（T2V）生成任务。数据集的创建时间为2024年12月10日，主要研究人员包括Xiao Fu、Xian Liu等，他们通过引入6自由度（DoF）控制、多样化的实体类型和复杂的背景场景，显著提升了视频生成中实体运动的精细度和多样性。该数据集的发布对视频生成领域具有重要影响，尤其是在多实体运动控制和三维轨迹生成方面，为相关研究提供了丰富的资源和基准。

当前挑战

360°-Motion Dataset在构建过程中面临多项挑战。首先，如何在三维空间中精确控制多个实体的运动轨迹，尤其是处理复杂的3D遮挡、旋转和转弯等问题，是技术上的主要难点。其次，数据集的多样性要求涵盖多种实体类型和背景场景，这增加了数据采集和处理的复杂性。此外，数据集的构建还需要解决实体提示的细粒度控制问题，以确保生成的视频能够准确反映文本描述。最后，由于涉及公司内部模型和数据，数据集的公开和访问也面临一定的政策和法律限制，这为研究者获取完整数据集带来了挑战。

常用场景

经典使用场景

360°-Motion Dataset 的经典使用场景主要集中在多实体的3D轨迹控制与视频生成领域。该数据集通过提供丰富的3D轨迹模板和实体信息，支持在视频生成过程中对多个实体的运动进行精细控制。例如，研究者可以利用该数据集生成包含复杂3D运动轨迹的视频，如旋转、遮挡和多角度转弯等，从而在文本到视频生成（T2V）任务中实现高度逼真的动态场景模拟。

衍生相关工作

基于360°-Motion Dataset，研究者们已经开展了一系列相关工作。例如，MotionCtrl 项目首次实现了在视频生成中对3D相机运动和2D物体运动的控制；TC4D 则通过3D轨迹条件实现了文本到4D场景的生成；Tora 项目利用轨迹导向的扩散变换器控制2D运动。这些工作不仅扩展了360°-Motion Dataset 的应用范围，还进一步推动了视频生成技术的发展。

数据集最近研究