SynCamVideo-Dataset

Hugging Face2024-12-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/KwaiVGI/SynCamVideo-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SynCamVideo数据集是一个使用虚幻引擎5渲染的多相机同步视频数据集。它包含1,000个不同的场景，每个场景由36台相机捕捉，总计36,000个视频。SynCamVideo数据集以50种不同的动物作为“主要对象”，并利用来自Poly Haven的20个不同地点作为背景。在每个场景中，从50种动物中选择1-2个对象，并沿着预定义的轨迹移动，背景从20个地点中随机选择，36台相机同时记录对象的移动。每个场景中的相机放置在半球形表面上，距离场景中心的距离为3.5米至9米。为了确保渲染的视频与现实世界视频的领域偏移最小，我们将每个相机的仰角限制在0°至45°之间，方位角限制在0°至360°之间。每个相机在这些约束条件下随机采样，而不是在所有场景中使用相同的相机位置集。SynCamVideo数据集可用于训练多相机同步视频生成模型，激发电影制作和多视图数据生成等领域的应用。

创建时间：

2024-12-09

原始信息汇总

SynCamVideo Dataset

1. 数据集简介

SynCamVideo Dataset 是一个使用虚幻引擎5渲染的多相机同步视频数据集。该数据集包含1,000个不同的场景，每个场景由36个相机捕捉，总共生成36,000个视频。数据集的主要特点包括：

50种不同的动物作为“主要对象”。
使用来自Poly Haven的20个不同地点作为背景。
每个场景中，从50种动物中选择1-2个对象，并沿着预定义的轨迹移动，背景从20个地点中随机选择，36个相机同时记录对象的运动。

每个场景中的相机放置在一个半球形表面上，距离场景中心的距离为3.5米至9米。为了确保渲染的视频与现实世界视频的领域偏移最小，相机的仰角限制在0°至45°之间，方位角限制在0°至360°之间。每个相机的位置在这些约束内随机采样，而不是在所有场景中使用相同的相机位置集。

2. 文件结构

SynCamVideo ├── train │ ├── videos # 训练视频 │ │ ├── scene1 # 一个场景 │ │ │ ├── xxx.mp4 # 同步的100帧视频，分辨率为480x720 │ │ │ └── ... │ │ │ ... │ │ └── scene1000 │ │ ├── xxx.mp4 │ │ └── ... │ ├── cameras # 训练相机 │ │ ├── scene1 # 一个场景 │ │ │ └── xxx.json # 与视频对应的相机外部参数 │ │ │ ... │ │ └── scene1000 │ │ └── xxx.json │ └──caption │ └── cogvideox_caption.csv # 使用"THUDM/cogvlm2-llama3-caption"生成的字幕 └──val └── cameras # 验证相机 ├── Hemi36_4m_0 # 距离=4m, 仰角=0° │ └── Hemi36_4m_0.json # 36个相机: 距离=4m, 仰角=0°, 方位角=i * 10° │ ... └── Hemi36_7m_45 └── Hemi36_7m_45.json

3. 有用脚本

相机可视化 python python vis_cam.py --pose_file_path ./SynCamVideo-Dataset/val/cameras/Hemi36_4m_0/Hemi36_4m_0.json --num_cameras 36

引用

bibtex @misc{bai2024syncammaster, title={SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints}, author={Jianhong Bai and Menghan Xia and Xintao Wang and Ziyang Yuan and Xiao Fu and Zuozhu Liu and Haoji Hu and Pengfei Wan and Di Zhang}, year={2024}, eprint={2412.07760}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.07760}, }

联系

Jianhong Bai

搜集汇总

数据集介绍

构建方式

SynCamVideo-Dataset通过使用虚幻引擎5（Unreal Engine 5）进行渲染，构建了一个多相机同步视频数据集。该数据集包含1000个不同的场景，每个场景由36台相机同时捕捉，总计生成36,000个视频。每个场景中，1-2个从50种不同动物中随机选择的“主要对象”沿着预定义的路径移动，背景则从20个不同的地点中随机选取。相机被布置在一个半球形表面上，距离场景中心3.5米至9米，确保视频与真实世界视频的域偏移最小化。相机的仰角限制在0°至45°之间，方位角在0°至360°之间，且每个场景的相机位置随机采样，以增加数据的多样性。

特点

SynCamVideo-Dataset的显著特点在于其多相机同步捕捉和高度多样化的场景设置。数据集不仅涵盖了50种不同的动物作为主要对象，还使用了20个不同的背景环境，极大地丰富了数据的多样性。此外，相机的随机布置和严格的视角限制确保了视频数据的真实性和一致性，使其在多相机视频生成模型训练中具有极高的应用价值。

使用方法

SynCamVideo-Dataset可用于训练多相机同步视频生成模型，适用于电影制作和多视角数据生成等下游任务。数据集的文件结构清晰，包含训练和验证集，每个场景的视频和对应的相机外部参数分别存储。用户可以通过提供的Python脚本进行相机位置的可视化，便于理解和分析数据。此外，数据集还提供了使用“THUDM/cogvlm2-llama3-caption”生成的视频描述，进一步增强了其实用性。

背景与挑战

背景概述

SynCamVideo-Dataset是由快手科技的研究团队在Unreal Engine 5中渲染生成的多相机同步视频数据集，由Jinwen Cao、Yisong Guo等研究人员主导构建。该数据集包含1000个不同的场景，每个场景由36台相机同时录制，总计36,000个视频。数据集以50种不同的动物为主体，背景则来自Poly Haven提供的20个不同场景。每个场景中，1-2个动物主体沿着预定义的路径移动，背景随机选择，36台相机同步记录其运动。SynCamVideo-Dataset的创建旨在推动多相机同步视频生成模型的研究，并为电影制作和多视角数据生成等下游任务提供支持。

当前挑战

SynCamVideo-Dataset在构建过程中面临多项挑战。首先，确保多相机同步录制的高精度要求，尤其是在虚拟环境中模拟真实世界的相机布局和运动轨迹。其次，如何减少渲染视频与真实世界视频之间的领域偏移，确保数据集在训练模型时的有效性。此外，数据集的规模和复杂性也带来了存储和处理上的挑战，尤其是36,000个视频的高分辨率存储和高效检索。最后，如何在多视角数据生成中保持主体运动的连贯性和背景的一致性，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

SynCamVideo-Dataset 的经典使用场景主要集中在多相机同步视频生成模型的训练。该数据集通过36个相机在不同场景中同步捕捉50种不同动物的运动轨迹，为多视角视频生成提供了丰富的训练数据。其独特的多相机同步机制和多样化的场景设置，使得该数据集在电影制作、虚拟现实和多视角数据生成等领域的应用尤为突出。

实际应用

在实际应用中，SynCamVideo-Dataset 被广泛应用于电影制作、虚拟现实和增强现实等领域。通过模拟真实场景中的多相机同步拍摄，该数据集为电影制作提供了高质量的多视角视频素材，极大地提升了虚拟现实和增强现实体验的真实感和沉浸感。此外，该数据集还可用于自动驾驶、机器人视觉等领域的多视角数据生成和分析。

衍生相关工作

基于 SynCamVideo-Dataset，研究者们开发了多种多相机同步视频生成模型，并在多个领域取得了显著成果。例如，有研究团队利用该数据集训练了高精度的多视角视频生成模型，成功应用于电影特效制作。此外，该数据集还激发了在虚拟现实和增强现实领域的相关研究，推动了多视角数据生成技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集