Syn4D

Name: Syn4D
Creator: 牛津大学·VGG实验室; 南洋理工大学; Naver Labs Europe
Published: 2026-05-07 01:59:55
License: 暂无描述

arXiv2026-05-07 更新2026-05-09 收录

下载链接：

https://jzr99.github.io/Syn4D/

下载链接

链接失效反馈

官方服务：

资源简介：

Syn4D是由牛津大学VGG实验室主导构建的多视角合成4D数据集，旨在推动动态场景理解与时空建模研究。该数据集包含4700个视频片段（总计140万帧），数据源包含从Objaverse-XL精选的1674个动态3D资产和Bedlam2的585个参数化人体模型，通过Unreal Engine程序化生成高质量动态场景。其核心特色是提供了密集的多视角几何标注（包括相机位姿、深度图、3D跟踪等），支持任意像素在任意时间跨相机3D反投影。该数据集主要应用于4D场景重建、3D点跟踪、几何感知相机重定向及人体姿态估计等任务，解决了现有动态数据集缺乏密集多视角标注的瓶颈问题。

Syn4D is a multi-view synthetic 4D dataset developed by the VGG Laboratory at the University of Oxford, aiming to advance research in dynamic scene understanding and spatio-temporal modeling. This dataset includes 4700 video clips, totaling 1.4 million frames. Its data sources cover 1674 dynamic 3D assets curated from Objaverse-XL and 585 parametric human body models from Bedlam2, with high-quality dynamic scenes procedurally generated via Unreal Engine. The core highlight of Syn4D is its provision of dense multi-view geometric annotations, including camera poses, depth maps, 3D tracking information and more, which enables 3D back-projection of arbitrary pixels across cameras at any time. This dataset is mainly applied to tasks such as 4D scene reconstruction, 3D point tracking, geometry-aware camera re-targeting and human pose estimation, addressing the bottleneck problem that existing dynamic datasets lack dense multi-view annotations.

提供机构：

牛津大学·VGG实验室; 南洋理工大学; Naver Labs Europe

创建时间：

2026-05-07

原始信息汇总

数据集概述：Syn4D

Syn4D 是一个大规模合成多视图 4D 数据集，专为一系列 4D 任务设计，包括相机姿态估计、深度估计、动态 3D 场景重建、2D/3D 追踪、人体姿态估计和新视角合成。

核心特性

多视图合成数据：场景由多个同步相机以逼真质量渲染，捕捉多样化的动态环境和人与物体的交互。
密集真实标注：每个场景提供丰富的真实标注，包括：
- 逐像素深度图
- 多视角相机轨迹
- 密集的长程 3D 点轨迹
- 参数化的 SMPL-X 人体姿态与形状
关键能力：支持将任何像素反投影到 3D 空间的任何时间和任何相机视角。

数据集用途与下游任务

Syn4D 旨在促进动态场景理解与时空建模的研究，在多个下游任务上进行了广泛评估，包括：

4D 场景重建
3D 点追踪（稀疏与密集）
几何感知的新视角合成
相机姿态估计
多视图 3D 重建
视频深度估计
人体姿态估计

定量评估摘要

实验结果表明，使用 Syn4D 进行协同训练（或基于 Syn4D 训练）在以下任务中显著提升了性能：

几何感知新视角合成：在视觉质量和几何质量指标上均优于基于 Kubric 数据集的基线。
3D 点追踪：在稀疏和密集 3D 追踪的多个基准上，协同训练带来了显著改进。
相机姿态估计与多视图 3D 重建：在所有基准测试中，3D 重建性能显著提升，相机姿态估计性能保持可比或更优。
视频深度估计：在多个数据集（Sintel、Bonn、KITTI）的评估指标上取得改进。
人体姿态估计：在 Hi4D、CHI3D 和 3DPW 数据集上，使用 Syn4D 继续训练的方法在 MPJPE、PA-MPJPE 和 PVE 指标上均优于仅使用原数据集继续训练的方法。

数据与代码可用性

论文：https://arxiv.org/abs/2605.05207
数据（不含追踪标注）：可获取
数据（完整标注）：即将发布
代码：可获取

搜集汇总

数据集介绍

构建方式

Syn4D通过Unreal Engine程序化生成，结合来自Fab商店的30个高质量3D场景环境与经过筛选的1,674个Objaverse动态物体资产及585个Bedlam2模拟人体。每种场景中随机布置1-3个动态物体与单个人体，利用地面占用图避免碰撞，并采用Lumen实时全局光照系统渲染。相机轨迹涵盖静态、跟踪、轨道及推拉等多种模式，每个片段生成八组多视角相机，覆盖39.6°至90°水平视场角，并叠加Perlin噪声模拟真实抖动。

使用方法

数据集适用于多种4D下游任务，包括4D场景重建、3D点追踪、几何感知新视角合成及人体姿态估计。研究者可直接加载RGB帧、点图及深度图训练前馈网络，利用稠密追踪标注监督时空场景表征学习，或微调多视角扩散模型以实现外观与几何一致的新颖视频生成。数据集中包含的全局与局部文字描述（每81帧一条）还可支持文本条件视频生成等应用。

背景与挑战

背景概述

Syn4D数据集由牛津大学VGG实验室联合南洋理工大学与Naver Labs Europe等机构于2026年发布，旨在攻克单目视频动态场景的密集三维重建与追踪这一计算机视觉长期未解难题。研究团队敏锐洞察到，现有数据集普遍缺乏完整、精确的几何标注，且多数局限于静态场景或刚性物体，严重制约了以数据驱动的四维重建算法的发展。为此，他们利用虚幻引擎与Objaverse、Bedlam2等高质量资产，构建了包含约4700段多视角视频片段、总计140万帧的大规模合成数据集。Syn4D不仅提供了相机位姿、深度图、稠密跟踪、SMPL-X人体姿态等完备标注，更首次实现了任意像素在任意时空与相机视角下的三维反投影，为四维场景理解与时空建模研究奠定了坚实的数据基石。

当前挑战

该数据集旨在应对的核心领域挑战是单目视频到四维动态场景的鲁棒重建，该问题长期受困于几何先验的缺失与真实标注的匮乏。现有数据集要么仅针对静态场景（如BlendedMVS），要么提供的动态标注稀疏且含噪（如Stereo4D），而Sintel、Spring等合成数据集缺乏多视角信息与稠密追踪。Syn4D的构建过程亦面临严峻瓶颈：首先，需从Objaverse中筛选出1,674个运动幅度合理的非刚性动画资产，并通过IoU过滤去除低质量变形与快速运动；其次，设计涵盖轨道、推拉、配对等多种模式的相机运动轨迹，以确保八视角覆盖的完备性与拍摄真实性；最后，为规避海量稠密追踪数据的存储爆炸，创新性地提出基于重心坐标与网格序列的高效编码方案，将数据体积压缩至可管理规模。

常用场景

经典使用场景

Syn4D作为首个公开的包含密集3D跟踪标注的多视图动态场景合成数据集，其最经典的使用场景在于为4D重建与追踪任务提供全面的训练与评估基准。研究人员可利用其提供的精确相机位姿、深度图、稠密点轨迹及人体姿态参数，训练前馈神经网络从单目视频中一次性恢复动态场景的几何结构与运动信息。该数据集涵盖1,674个来自Objaverse的动画对象与585个来自Bedlam2的仿真人体，并置于30个由Unreal Engine 5渲染的高质量3D环境中，从而为模型学习复杂的时空先验提供了前所未有的数据规模与注释完整性。

解决学术问题

该数据集有效解决了动态场景理解中高质量标注数据匮乏这一长期瓶颈问题。现有数据集要么仅覆盖静态场景，要么提供稀疏或噪声较大的几何注释，难以支撑学习型4D重建方法的突破。Syn4D通过提供多视图设置下的稠密、完整且准确的几何与运动注释，使得模型能够学习动态场景的统计先验，从而在相机姿态估计、视频深度预测、多视图三维重建及3D点追踪等多项学术任务上取得一致性提升。其首次实现了任意像素在任意时间、任意相机下的3D空间位置恢复，为端到端4D感知研究奠定了数据基础。

实际应用

在实际应用层面，Syn4D可赋能虚拟现实、影视制作与机器人交互等需要动态场景理解与重绘的领域。基于该数据集训练的几何感知多视图扩散模型能够从单一源视频生成具有一致几何结构的新视角视频序列，支持用户自由指定目标相机轨迹进行内容重定向。此外，在人体姿态估计方面，Syn4D中丰富的遮挡模式与高质量SMPL-X标注可显著提升单阶段多人回归模型在真实复杂场景下的鲁棒性，为增强现实、动作捕捉等下游应用提供了可行的训练数据支撑。

数据集最近研究