MultiCamVideo

Hugging Face2025-12-25 更新2025-12-26 收录

下载链接：

https://huggingface.co/datasets/cauphe/MultiCamVideo

下载链接

链接失效反馈

官方服务：

资源简介：

MultiCamVideo数据集是一个使用Unreal Engine 5渲染的多摄像头同步视频数据集，包含同步的多摄像头视频及其对应的摄像头轨迹。数据集包含13.6K个不同的动态场景，每个场景由10个摄像头捕捉，总计136K个视频和112K个不同的摄像头轨迹。每个动态场景由四个元素组成：3D环境、角色、动画和摄像头。数据集设计用于摄像头控制的视频生成、同步视频制作以及3D/4D重建等领域。

创建时间：

2025-12-24

原始信息汇总

MultiCamVideo 数据集概述

数据集简介

MultiCamVideo 数据集是一个使用 Unreal Engine 5 渲染的多摄像头同步视频数据集。它包含同步的多摄像头视频及其对应的相机轨迹。该数据集可用于相机控制视频生成、同步视频制作和 3D/4D 重建等领域。

数据集构成

数据集由动态场景构成，每个动态场景包含四个元素：{3D 环境、角色、动画、相机}。通过动画驱动角色，并将动画角色置于 3D 环境中，然后设置时间同步的相机沿预定轨迹移动以渲染多摄像头视频数据。

构成要素详情

3D 环境：从 Fab 收集了 37 个高质量的 3D 环境资产。主要为视觉逼真的 3D 场景，辅以少量风格化或超现实的 3D 场景。场景涵盖多种室内外环境，如城市街道、购物中心、咖啡馆、办公室和乡村。
角色：从 Fab 和 Mixamo 收集了 66 个不同的人体 3D 模型作为角色。
动画：从 Fab 和 Mixamo 收集了 93 种不同的动画，包括挥手、跳舞和欢呼等常见动作。
相机：通过设计规则批量生成随机的相机起始位置和运动轨迹，以确保相机运动多样且接近真实世界分布。

相机轨迹生成规则

相机起始位置：以角色位置为球心，根据 3D 场景大小设定半径为 {3m, 5m, 7m, 10m} 的半球体，在此范围内随机采样作为相机起点。确保与角色的最近距离大于 0.5m，俯仰角在 45 度以内。
相机轨迹：
- 平移与倾斜：相机旋转角度在范围内随机选择，平移角范围 5 至 45 度，倾斜角范围 5 至 30 度，方向随机选择左/右或上/下。
- 基本平移：相机沿 xyz 轴正负方向平移，移动距离在 ([frac{1}{4}, 1] imes) 与角色距离的范围内随机选择。
- 基本弧线轨迹：相机沿弧线移动，旋转角度在 15 至 75 度范围内随机选择。
- 随机轨迹：在空间中采样 1-3 个点，相机从初始位置经过这些点作为运动轨迹，总移动距离在 ([frac{1}{4}, 1] imes) 与角色距离的范围内随机选择。对折线进行平滑处理以使运动更自然。
- 静态相机：拍摄期间相机不平移或旋转，保持固定位置。
相机移动速度：50% 的训练数据使用匀速相机轨迹，另外 50% 使用非线性函数生成的变速轨迹。轨迹速度由可调参数 (a) 控制。
相机参数：选择了四组相机参数：{焦距=18mm，光圈=10}、{焦距=24mm，光圈=5}、{焦距=35mm，光圈=2.4} 和 {焦距=50mm，光圈=2.4}。

统计数据与配置

数据集统计

动态场景数量	每场景相机数	视频总数
13,600	10	136,000

视频配置

分辨率	帧数	帧率 (FPS)
1280x1280	81	15

注：可使用“中心裁剪”调整视频宽高比以适应视频生成模型，如 16:9、9:16、4:3 或 3:4。

相机配置

焦距	光圈	传感器高度	传感器宽度
18mm, 24mm, 35mm, 50mm	10.0, 5.0, 2.4	23.76mm	23.76mm

文件结构

MultiCamVideo-Dataset ├── train │ ├── f18_aperture10 │ │ ├── scene1 │ │ │ ├── videos │ │ │ │ ├── cam01.mp4 │ │ │ │ ├── cam02.mp4 │ │ │ │ ├── ... │ │ │ │ └── cam10.mp4 │ │ │ └── cameras │ │ │ └── camera_extrinsics.json │ │ ├── ... │ │ └── scene3400 │ ├── f24_aperture5 │ │ ├── scene1 │ │ ├── ... │ │ └── scene3400 │ ├── f35_aperture2.4 │ │ ├── scene1 │ │ ├── ... │ │ └── scene3400 │ └── f50_aperture2.4 │ ├── scene1 │ ├── ... │ └── scene3400 └── val └── 10basic_trajectories ├── videos │ ├── cam01.mp4 │ ├── cam02.mp4 │ ├── ... │ └── cam10.mp4 └── cameras └── camera_extrinsics.json

实用脚本

数据提取 bash sudo apt-get install git-lfs git lfs install git clone https://huggingface.co/datasets/KwaiVGI/MultiCamVideo-Dataset cat MultiCamVideo-Dataset.part* > MultiCamVideo-Dataset.tar.gz tar --zstd -xvf CamCloneDataset.tar.gz
相机可视化 python python vis_cam.py

可视化脚本修改自 CameraCtrl。

引用

如果使用本数据集，请引用相关论文。 bibtex @misc{bai2025recammaster, title={ReCamMaster: Camera-Controlled Generative Rendering from A Single Video}, author={Jianhong Bai and Menghan Xia and Xiao Fu and Xintao Wang and Lianrui Mu and Jinwen Cao and Zuozhu Liu and Haoji Hu and Xiang Bai and Pengfei Wan and Di Zhang}, year={2025}, eprint={2503.11647}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11647}, }

许可协议

Apache 2.0

搜集汇总

数据集介绍

构建方式

在计算机视觉与图形学领域，高质量的合成数据对于推动相机控制视频生成等前沿研究至关重要。MultiCamVideo数据集通过虚幻引擎5渲染构建，其核心在于精心设计的四元素组合：从Fab等平台精选的37个高真实感三维环境、66个不同人体模型、93种常见动作动画，以及基于规则批量生成的多样化相机轨迹。每个动态场景由这四类元素组合而成，通过动画驱动角色在三维环境中运动，并设置时间同步的相机沿预定轨迹移动，最终渲染出多视角视频数据。该过程生成了13,600个动态场景，每个场景由10台相机同步捕获，共计136,000段视频与112,000条相机轨迹，确保了数据在视觉真实性与运动多样性上的平衡。

使用方法

对于研究者而言，该数据集可直接用于相机控制视频生成、同步视频合成及三维重建等任务的模型训练与验证。数据集按焦距与光圈分组存储，用户可通过提供的脚本克隆仓库并解压数据。每个场景目录下包含10个同步视频文件及记录81帧相机外参的JSON文件，便于直接加载多视角视频流与对应的相机姿态。验证集部分额外提供了10种基础轨迹示例，可用于模型性能评估。此外，附带的相机可视化脚本支持轨迹的可视化检查，帮助用户直观理解相机运动模式，从而更好地融入训练流程或进行数据分析。

背景与挑战

背景概述

在计算机视觉与图形学领域，多视角视频数据对于三维重建、相机控制生成以及同步视频制作等任务至关重要。MultiCamVideo数据集由快手的KwaiVGI团队于2025年提出，作为ReCamMaster研究项目的一部分，旨在通过虚幻引擎5渲染生成大规模、高质量的多相机同步视频数据。该数据集包含13,600个动态场景，每个场景由10个同步相机捕获，共计136,000段视频，并提供了精确的相机轨迹。其核心研究问题聚焦于解决真实世界多相机数据采集成本高昂、同步困难以及标注稀缺的瓶颈，为相机控制视频生成、4D重建等前沿方向提供了宝贵的合成数据资源，显著推动了相关算法的发展与验证。

当前挑战

MultiCamVideo数据集致力于应对相机控制视频生成领域的核心挑战，即如何从单一视频中生成具有多样化、逼真相机运动的多视角序列。这一任务要求模型深刻理解场景的三维结构并模拟真实的相机物理行为，现有方法常受限于训练数据的规模与真实性。在数据集构建过程中，研究团队面临合成数据与真实视频间的领域鸿沟，需精心筛选高保真的三维环境与角色资产以确保视觉真实感。同时，设计覆盖广泛且符合真实分布的相机轨迹是一大难点，团队通过规则化随机生成并结合多种运动模式（如平移、弧线、随机路径）来丰富轨迹多样性，并引入变速运动以增强动态自然性，这些努力共同保障了数据集的实用性与挑战性。

常用场景

经典使用场景

在计算机视觉与图形学领域，多视角视频数据对于理解动态场景的三维结构至关重要。MultiCamVideo数据集通过虚幻引擎5渲染生成，提供了大量同步的多相机视频及其对应的相机轨迹，成为相机控制视频生成任务的经典基准。该数据集常用于训练和评估生成模型，使其能够根据指定的相机轨迹合成连贯且逼真的多视角视频序列，为可控内容生成提供了丰富的数据支撑。

解决学术问题

该数据集有效应对了可控视频生成中高质量多视角数据稀缺的挑战。它通过提供大规模、多样化的同步视频与相机轨迹，解决了现有方法在泛化性与真实性上的局限，显著推动了相机参数化生成、动态场景重建等研究方向的发展。其精确的相机标注为几何一致性学习提供了可靠基础，对提升生成内容的时空连贯性具有深远意义。

实际应用

在影视制作与虚拟现实等产业中，MultiCamVideo数据集展现出广泛的应用潜力。它可用于自动化多机位视频合成、虚拟摄影机路径规划以及沉浸式内容创作，大幅降低专业级视频生产的成本与技术门槛。此外，该数据集还能服务于游戏开发、模拟训练等领域，为构建高保真动态数字环境提供关键数据资源。

数据集最近研究