MultiCamVideo-Dataset

Hugging Face2025-04-02 更新2025-04-03 收录

下载链接：

https://huggingface.co/datasets/KwaiVGI/MultiCamVideo-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MultiCamVideo数据集是一个使用Unreal Engine 5渲染的多摄像头同步视频数据集。它包含了同步的多摄像头视频及其相应的相机轨迹。数据集由13,600个不同的动态场景组成，每个场景由10个摄像头捕获，共计136,000个视频。每个动态场景包括四个元素：3D环境、角色、动画和相机。使用动画驱动角色，并将其放置在3D环境中。随后，设置时间同步的相机沿预定义的轨迹移动以渲染多摄像头视频数据。数据集涵盖了多种室内外场景，如城市街道、购物中心、咖啡馆、办公室和乡村等。角色和动画从Fab和Mixamo收集，共有66种不同的人类3D模型和93种动画。相机轨迹设计多样，包括平移、旋转和弧线运动等，以及静态相机设置。数据集的统计数据为：动态场景数量13,600个，每个场景的摄像头数量10个，总视频数136,000个，压缩文件大小312G。视频配置为1280x1280分辨率，81帧数，15FPS。相机配置包括四种焦距和光圈组合。

The MultiCamVideo dataset is a synchronized multi-camera video dataset rendered using Unreal Engine 5. It contains synchronized multi-camera video footage and their corresponding camera trajectories. The dataset consists of 13,600 distinct dynamic scenes, each captured by 10 cameras, totaling 136,000 video clips. Each dynamic scene includes four core components: a 3D environment, digital characters, animations, and cameras. Characters are animated using the collected animations and placed into the 3D environment. Subsequently, time-synchronized cameras are set to move along predefined trajectories to render the multi-camera video data. The dataset covers a variety of indoor and outdoor scenarios, including urban streets, shopping malls, cafes, offices, rural areas, and more. Characters and animations are sourced from Fab and Mixamo, with a total of 66 distinct human 3D models and 93 animation clips. The camera trajectories are diversely designed, including translational, rotational, and arc movements, as well as static camera setups. The statistical specifications of the dataset are as follows: 13,600 dynamic scenes, 10 cameras per scene, 136,000 total video clips, a compressed file size of 312 GB, each video with a resolution of 1280×1280, 81 frames per clip, and a frame rate of 15 FPS. The camera configurations include four combinations of focal length and aperture.

创建时间：

2025-03-30

原始信息汇总

MultiCamVideo Dataset 概述

1. 数据集简介

概述：MultiCamVideo Dataset是一个通过Unreal Engine 5渲染的多摄像头同步视频数据集，包含同步的多摄像头视频及其对应的摄像头轨迹。
应用领域：适用于摄像头控制视频生成、同步视频制作和3D/4D重建等领域。
构成要素：每个动态场景由四个元素组成：3D环境、角色、动画和摄像头。

2. 数据集构成

3D环境：收集了37个高质量的3D环境资产，涵盖室内外多种场景。
角色：包含66个不同的人体3D模型。
动画：收集了93种不同的动画，包括常见的动作如挥手、跳舞和欢呼。
摄像头：设计了多样化的摄像头轨迹和参数，确保运动多样性和真实世界分布。

3. 数据集统计与配置

数据集统计：
- 动态场景数量：13,600
- 每个场景的摄像头数量：10
- 总视频数量：136,000
- 压缩文件大小：312G
视频配置：
- 分辨率：1280x1280
- 帧数：81
- 帧率：15 FPS
摄像头配置：
- 焦距：18mm, 24mm, 35mm, 50mm
- 光圈：10.0, 5.0, 2.4
- 传感器高度：23.76mm
- 传感器宽度：23.76mm

4. 文件结构

MultiCamVideo-Dataset ├── train │ ├── f18_aperture10 │ │ ├── scene1 │ │ │ ├── videos │ │ │ │ ├── cam01.mp4 │ │ │ │ ├── cam02.mp4 │ │ │ │ ├── ... │ │ │ │ └── cam10.mp4 │ │ │ └── cameras │ │ │ └── camera_extrinsics.json │ │ ├── ... │ │ └── scene3400 │ ├── f24_aperture5 │ │ ├── scene1 │ │ ├── ... │ │ └── scene3400 │ ├── f35_aperture2.4 │ │ ├── scene1 │ │ ├── ... │ │ └── scene3400 │ └── f50_aperture2.4 │ ├── scene1 │ ├── ... │ └── scene3400 └── val └── 10basic_trajectories ├── videos │ ├── cam01.mp4 │ ├── cam02.mp4 │ ├── ... │ └── cam10.mp4 └── cameras └── camera_extrinsics.json

5. 实用脚本

数据提取： bash sudo apt-get install git-lfs git lfs install git clone https://huggingface.co/datasets/KwaiVGI/MultiCamVideo-Dataset cat MultiCamVideo-Dataset.part* > MultiCamVideo-Dataset.tar.gz tar -xzvf MultiCamVideo-Dataset.tar.gz
摄像头可视化： python python vis_cam.py

6. 引用

bibtex @misc{bai2025recammaster, title={ReCamMaster: Camera-Controlled Generative Rendering from A Single Video}, author={Jianhong Bai and Menghan Xia and Xiao Fu and Xintao Wang and Lianrui Mu and Jinwen Cao and Zuozhu Liu and Haoji Hu and Xiang Bai and Pengfei Wan and Di Zhang}, year={2025}, eprint={2503.11647}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11647}, }

7. 联系方式

邮箱：jianghongbai@zju.edu.cn

搜集汇总

数据集介绍

构建方式

MultiCamVideo数据集通过虚幻引擎5渲染构建，包含13.6万个动态场景，每个场景由10台同步摄像机捕捉，总计生成136万条视频。数据集构建过程中，精心设计了3D环境、角色、动画和摄像机四个核心元素。3D环境选自Fab平台37个高质量场景，覆盖多样化的室内外环境；角色采用66种不同人体3D模型；动画整合93种常见动作。摄像机轨迹通过半球随机采样生成，包含平移、弧线、随机轨迹等多种运动模式，并引入非线性函数控制变速运动，确保运动轨迹的自然性和多样性。

特点

该数据集最显著的特点是高度可控的同步多摄像机视频采集系统。所有视频均以1280x1280分辨率录制，帧率为15fps，每段视频包含81帧画面。数据集提供四种不同焦距和光圈的摄像机参数组合，涵盖18mm至50mm的焦段范围。每个动态场景均附带精确的摄像机外参数据，为三维重建和摄像机控制研究提供坚实基础。数据集的场景组合经过精心设计，既包含写实风格也包含少量艺术化场景，有效缩小了虚拟渲染与现实视频之间的领域差距。

使用方法

数据集采用分层目录结构组织，按训练集和验证集划分。使用前需通过提供的脚本进行数据解压和合并操作。数据集特别适用于摄像机控制视频生成、同步视频制作和3D/4D重建等研究方向。研究人员可通过附带的摄像机可视化工具直观分析轨迹数据。为适应不同视频生成模型的需求，建议使用中心裁剪方式调整视频宽高比。数据集配套的摄像机外参文件采用JSON格式存储，便于直接集成到各类计算机视觉算法中进行训练和验证。

背景与挑战

背景概述

MultiCamVideo数据集由KwaiVGI团队于2025年提出，旨在推动多相机同步视频生成与三维重建领域的研究。该数据集基于虚幻引擎5渲染构建，包含13.6万个动态场景，每个场景由10个同步相机捕捉，总计生成136K条高分辨率视频序列。核心创新在于融合了3D环境、角色模型、动作动画与相机轨迹四大要素，通过精确控制相机运动参数与空间分布，为相机控制视频生成、同步视频制作等任务提供了标准化基准。数据集通过严谨的工程化设计，实现了虚拟场景与真实视频的域差距最小化，其多视角时空对齐特性对计算机视觉领域的跨视角分析、动态场景理解等研究方向具有重要启示意义。

当前挑战

构建多相机同步视频数据集面临双重技术挑战：在领域问题层面，真实世界相机运动的复杂动力学特性难以建模，需要平衡轨迹多样性与其物理合理性；多视角视频的时空对齐精度直接影响三维重建质量，这对相机参数标定与帧同步机制提出毫米级精度要求。在构建过程中，大规模场景合成涉及数万次物理碰撞检测与光照一致性维护，虚幻引擎的实时渲染负载优化成为关键瓶颈；为模拟真实拍摄条件，相机轨迹设计需综合考虑运动学约束、遮挡规避与构图美学，算法生成的数千种运动模式需通过人工视觉校验确保自然度。

常用场景

经典使用场景

在计算机视觉与图形学交叉领域，MultiCamVideo-Dataset以其13.6万组多相机同步视频序列，成为研究相机轨迹控制与动态场景建模的基准工具。该数据集通过虚幻引擎5渲染的10视角同步视频，完美复现了真实拍摄中相机参数、运动轨迹与场景动态的耦合关系，为视觉生成任务提供了标准化测试平台。其精心设计的四类相机轨迹（平移/弧线/随机/静态）与四种光学参数组合，特别适用于评估多视角视频生成模型的时空一致性保持能力。

实际应用

在影视工业数字化进程中，该数据集支持虚拟制片中的预可视化系统开发。通过导入136K条带相机轨迹的渲染视频，导演可快速验证不同运镜方案对叙事效果的影响。游戏行业则利用其多样化的人物-环境-动画组合，训练实时镜头规划AI助手。值得注意的是，数据集包含的4种光圈-焦距配置，可直接用于电影级虚拟摄影机的数字孪生系统校准，缩短虚实融合制作流程的调试周期。

衍生相关工作

基于该数据集的开创性工作包括CameraCtrl提出的轨迹条件扩散模型，其通过学习数据集中的相机运动先验，实现了单视频到多视角视频的智能扩展。Kuaishou团队进一步开发的ReCamMaster框架，利用数据集构建的相机-内容解耦表征，在ECCV 2024展示了动态场景重定向的突破性进展。这些衍生研究共同推动了可控视频生成从实验室原型到工业级应用的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集