4DNeX-10M

Name: 4DNeX-10M
Creator: 南洋理工大学S-Lab, 上海人工智能实验室
Published: 2025-08-19 01:59:55
License: 暂无描述

arXiv2025-08-19 更新2025-08-22 收录

下载链接：

https://4dnex.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

4DNeX-10M是一个大规模的混合数据集，专为训练前馈式4D生成模型而设计。它汇集了来自公共来源和内部流程的视频，包括静态和动态场景。所有数据都经过严格的数据清洗、数据标注和质量评估，以确保几何一致性、运动多样性和视觉逼真度。4DNeX-10M包含超过920万张视频帧，其中包含伪标注。该数据集包含了室内和室外环境、远距离景观、近距离设置、高速场景、静态场景和包括人类在内的各种场景。此外，4DNeX-10M还涵盖了各种光照条件和丰富的人类活动。同时，我们提供了对应场景的精确4D点图和相机轨迹。数据集创建过程中，我们采用了自动化获取和过滤管道，包括数据清洗、数据标注和3D/4D标注等几个阶段。4DNeX-10M旨在解决4D场景生成中数据稀缺的问题，为4D生成模型的训练提供了高质量的数据支持。

4DNeX-10M is a large-scale hybrid dataset specifically designed for training feedforward 4D generative models. It aggregates videos from public sources and in-house pipelines, covering both static and dynamic scenes. All data have undergone rigorous data cleaning, annotation, and quality assessment to ensure geometric consistency, motion diversity, and visual fidelity. 4DNeX-10M contains over 9.2 million video frames with pseudo-annotations included. This dataset encompasses indoor and outdoor environments, long-distance landscapes, close-range setups, high-speed scenes, static scenes, and diverse scenarios involving humans. In addition, 4DNeX-10M also covers diverse lighting conditions and rich human activities. Meanwhile, we provide accurate 4D point maps and camera trajectories corresponding to each scene. During the dataset creation process, we employed an automated acquisition and filtering pipeline, which includes multiple stages such as data cleaning, annotation, and 3D/4D annotation. 4DNeX-10M aims to address the problem of data scarcity in 4D scene generation, providing high-quality data support for the training of 4D generative models.

提供机构：

南洋理工大学S-Lab, 上海人工智能实验室

创建时间：

2025-08-19

原始信息汇总

4DNeX 数据集概述

基本信息

论文标题：4DNeX: Feed-Forward 4D Generative Modeling Made Easy
作者：Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
机构：Nanyang Technological University, Shanghai AI Laboratory
论文链接：https://arxiv.org/abs/2508.13154

核心贡献

4DNeX框架：首个基于单图像的 feed-forward 4D（动态3D）场景生成框架。
4DNeX-10M数据集：大规模4D数据集，包含超过1000万帧，涵盖静态和动态场景。
6D视频表示：统一表示法，联合建模RGB和XYZ序列，实现外观和几何的结构化学习。
适应策略：通过微调预训练视频扩散模型，实现高效的端到端图像到4D生成。

方法概述

输入处理：使用VAE编码器对初始化的XYZ图和RGB输入进行编码，并通过宽度拼接（width-wise concatenation）进行融合。
生成过程：融合后的潜在表示与噪声潜在和引导掩码结合，由LoRA调优的Wan-DiT模型处理，生成RGB和XYZ视频。
后优化：轻量级后优化步骤从预测输出中恢复相机参数和深度图，生成一致的动态点云。

数据集详情

名称：4DNeX-10M
规模：超过1000万帧
场景类型：室内、室外、近景、远景、高速和以人为中心的场景
注释生成：使用现成重建模型生成伪4D注释，并通过多阶段过滤确保几何精度和场景多样性。

生成结果

6D（RGB+XYZ）视频：生成配对的RGB和XYZ序列，形成动态场景的统一6D表示。
动态点云：生成的6D视频可转换为动态点云，支持交互式可视化。
下游应用：支持新颖视角视频合成等下游任务。

性能特点

高效性：feed-forward框架，避免计算密集型优化。
强泛化性：在单图像输入下实现高质量4D生成，具有强泛化能力。
竞争性性能：在广泛实验中表现出与现有4D生成方法竞争的性能。

引用信息

bibtex @article{chen20254dnex, title={4DNeX: Feed-Forward 4D Generative Modeling Made Easy}, author={Chen, Zhaoxi and Liu, Tianqi and Zhuo, Long and Ren, Jiawei and Tao, Zeng and Zhu, He and Hong, Fangzhou and Pan, Liang and Liu, Ziwei}, journal={arXiv preprint arXiv:2508.13154}, year={2025} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量4D数据的稀缺性严重制约了动态场景生成模型的发展。4DNeX-10M数据集通过多阶段自动化流程构建：首先从DL3DV-10K、RealEstate10K、Pexels和Vimeo等来源收集单目视频，经过光学流分析和亮度过滤进行初步筛选；随后利用LLaVA-Next-Video模型生成视频描述文本；最后采用DUSt3R、MonST3R和MegaSaM等先进重建模型生成伪4D标注，并通过均值置信值和高质量像素比例等多级质量过滤机制确保几何一致性与运动多样性。

特点

该数据集的核心价值体现在其规模性与多样性：包含超过920万帧带标注视频数据，涵盖室内外环境、远景近景、静态动态以及高速运动场景。其独特优势在于提供精确的4D点云图和相机轨迹标注，支持外观与几何的联合学习。数据集不仅包含丰富的人类活动场景，还覆盖多种光照条件，为4D生成模型提供了前所未有的时空一致性监督信号，有效解决了动态3D场景表示学习中的数据瓶颈问题。

使用方法

该数据集专为训练前馈式4D生成模型设计，研究者可通过加载配对的RGB-XYZ序列进行联合训练。具体使用时，将单帧图像与初始化的XYZ图作为条件输入，通过宽度维度拼接后送入扩散模型进行6D视频生成。生成的动态点云可进一步通过轻量级后优化步骤恢复相机参数与深度图，最终利用TrajectoryCrafter等工具渲染出新颖视角视频。这种端到端的处理流程显著提升了4D场景生成的效率与可扩展性。

背景与挑战

背景概述

4DNeX-10M数据集由南洋理工大学S-Lab与上海人工智能实验室于2025年联合发布，旨在解决动态三维场景生成中高质量标注数据稀缺的核心问题。该数据集包含超过920万帧带有伪标注的视频数据，涵盖静态与动态场景，通过先进重建技术生成精确的四维点云与相机轨迹标注。其构建推动了单图像到四维场景生成领域的发展，为构建可模拟动态场景演化的生成式四维世界模型奠定了数据基础。

当前挑战

该数据集主要应对单图像生成动态三维场景的两大挑战：一是领域问题层面，需同时建模外观与几何的时空一致性，并解决动态点云的无结构特性导致的生成困难；二是构建过程层面，需从单目视频中提取高精度四维标注，并通过多阶段过滤确保几何准确性与运动多样性，同时克服不同模态数据分布差异带来的对齐难题。

常用场景

经典使用场景

在计算机视觉与生成式建模领域，4DNeX-10M数据集为单图像到动态4D场景生成任务提供了关键支持。其经典使用场景包括训练端到端的生成模型，如4DNeX框架，通过联合学习RGB外观与XYZ几何序列，实现从单一静态图像预测动态点云序列。该数据集的高质量伪标注和多样化动态内容，使得模型能够高效地合成时空一致的4D表示，显著提升了生成效率与泛化能力。

实际应用

该数据集的实际应用涵盖增强现实、虚拟现实、影视制作和数字内容创作等领域。例如，在AR/VR中，4DNeX-10M支持的模型能够从单张图像生成动态3D场景，实现沉浸式交互体验；在影视行业，它助力快速合成多视角动态内容，降低制作成本。此外，其衍生的新颖视角视频渲染技术，为自动驾驶和机器人仿真提供了高保真的动态环境模拟能力。

衍生相关工作

4DNeX-10M催生了多项经典工作，如4DNeX框架本身及其采用的宽度融合策略和模态感知归一化技术。相关研究还包括基于伪标注的动态重建模型MonST3R和MegaSaM的改进，以及TrajectoryCrafter在新颖视角视频合成中的应用。这些工作共同推动了动态神经辐射场、3D高斯溅射等表示方法的进步，并为端到端4D生成模型的标准化评估提供了基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集