TrajScene-60K

Name: TrajScene-60K
Creator: 清华大学
Published: 2025-12-05 01:59:10
License: 暂无描述

arXiv2025-12-05 更新2025-12-06 收录

下载链接：

https://github.com/Zhangyr2022/MoRe4D

下载链接

链接失效反馈

官方服务：

资源简介：

TrajScene-60K是由清华大学团队构建的大规模4D场景数据集，包含60,000个高质量视频样本，每个样本均带有密集点轨迹数据。该数据集源自WebVid-10M语料库，通过视觉语言模型筛选具有结构化运动的视频，并采用DELTA模型提取4D点轨迹，经深度滤波和高斯泼溅技术优化后形成。数据集特别关注场景级复杂动态，为4D运动生成与几何重建的联合建模提供支持，主要应用于虚拟现实、增强现实等需要时空一致性的沉浸式内容生成领域。

TrajScene-60K is a large-scale 4D scene dataset constructed by a research team from Tsinghua University. It contains 60,000 high-quality video samples, each paired with dense point trajectory data. Derived from the WebVid-10M corpus, this dataset filters videos with structured motions via vision-language models, extracts 4D point trajectories using the DELTA model, and optimizes the results through deep filtering and Gaussian splatting techniques to form the final dataset. The dataset specifically focuses on complex scene-level dynamics, enabling joint modeling for 4D motion generation and geometric reconstruction. Its main applications cover immersive content generation fields requiring spatio-temporal consistency, such as virtual reality (VR) and augmented reality (AR).

提供机构：

清华大学

创建时间：

2025-12-05

原始信息汇总

MoRe4D 数据集概述

一、数据集基本信息

数据集名称: TrajScene-60K
关联项目: MoRe4D (Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image)
数据集状态: 即将发布 (Coming Soon)
数据规模: 包含 60,000 个高质量样本

二、数据集内容与构建

数据来源: 从 WebVid-10M 数据集中筛选而来。
筛选方法: 使用基于视觉语言模型（VLM）的过滤方法，具体涉及 CogVLM2 和 DeepSeek-V3。
核心标注:
- 密集的 4D 点轨迹。
- 逐帧深度图。
- 遮挡掩码。
语义信息: 每个样本配有高质量描述文本，同时描述了场景内容和动态行为。

三、数据集用途

主要目的: 解决 4D 生成任务中的数据稀缺问题。
支持任务: 用于训练和评估联合 3D 几何重建与运动生成的模型，以实现从单张静态图像生成动态 4D 场景。

四、相关资源

项目论文: https://arxiv.org/abs/2512.05044
项目网站: https://ivg-yanranzhang.github.io/MoRe4D/
代码仓库: https://github.com/Zhangyr2022/MoRe4D

搜集汇总

数据集介绍

构建方式

在动态场景建模领域，高质量4D数据的稀缺长期制约着模型发展。TrajScene-60K的构建始于从WebVid-10M中筛选约20万个视频候选，通过视觉语言模型CogVLM2生成结构化描述，并利用DeepSeek-V3评估内容，保留具有可计数实体及自主运动特征的样本，有效过滤了人群行为等非结构化动态。随后采用DELTA模型从RGB视频序列中提取密集的4D点轨迹，结合单目深度估计获得包含三维位置与遮挡状态的轨迹数据。为确保几何一致性，实施了严格的质量过滤流程，剔除深度估计异常或运动尺度不一致的样本，最终通过高斯泼溅渲染生成6万个高质量4D场景样本，形成了规模可观且标注丰富的基准数据集。

使用方法

该数据集主要服务于4D场景生成模型的训练与评估，尤其适用于从单图像重建时空一致动态场景的任务。研究人员可将其作为训练数据，驱动如MoRe4D框架中的4D场景轨迹生成器等扩散模型，学习联合预测几何与运动。在使用时，通常将数据集的点轨迹、渲染视频及文本描述作为输入，训练模型从静态图像推断密集的4D点云序列。评估阶段则可通过渲染新颖视角视频，结合VBench等指标量化生成内容的动态质量、一致性及视觉保真度。数据集的结构化设计也支持对运动-几何耦合、时空一致性等细粒度性能的深入分析，为4D生成领域的算法进步提供可靠基准。

背景与挑战

背景概述

在计算机视觉与图形学领域，从单张静态图像生成具有时空一致性的动态4D场景是一项核心挑战。TrajScene-60K数据集由清华大学自动化系与GigaAI的研究团队于2025年提出，旨在解决高质量4D场景数据稀缺的问题。该数据集包含60,000个视频样本，每个样本均标注了密集的点轨迹，为联合几何重建与运动生成的模型训练提供了大规模、多样化的真实世界动态场景数据。其构建基于WebVid-10M视频库，通过视觉语言模型进行自动化筛选与清洗，确保了数据的运动结构性与实体可数性，显著推动了单图像4D合成技术的发展，并为虚拟现实、增强现实等沉浸式内容创建应用奠定了数据基础。

当前挑战

TrajScene-60K数据集致力于解决单图像4D场景生成的领域挑战，即如何从有限的二维观测中恢复出几何一致且运动合理的完整时空信息。传统方法往往将几何重建与运动生成解耦，导致时空不一致与泛化能力差。在数据集构建过程中，研究团队面临多重挑战：首先，从海量网络视频中筛选出具有清晰、自发起运动且结构良好的样本需要设计高效的自动化流程，依赖大型语言模型进行描述生成与质量评估；其次，提取密集4D点轨迹时需处理深度估计误差、异常值以及轨迹一致性等问题，通过深度过滤与高斯溅射等技术进行精细化清洗；此外，确保数据在几何、运动与语义层面的对齐与标注完整性，亦是构建高质量大规模4D数据集的关键难点。

常用场景

经典使用场景

在计算机视觉与图形学领域，从单张静态图像生成具有时空一致性的动态4D场景是一项前沿挑战。TrajScene-60K数据集的核心应用场景，在于为基于扩散模型的4D场景轨迹生成器（4D-STraG）提供大规模、高质量的监督数据。该数据集包含六万个视频样本及其对应的密集点轨迹，使得模型能够学习从单一图像到连贯4D点云序列的映射关系，有效支撑了运动生成与几何重建的联合建模范式。

解决学术问题

该数据集主要解决了4D场景生成领域中高质量训练数据稀缺的核心瓶颈。传统方法往往将几何重建与运动生成解耦，导致时空不一致或运动模式受限。TrajScene-60K通过提供海量带有精确点轨迹标注的真实世界动态场景数据，使得研究人员能够训练端到端的联合模型，如MoRe4D框架，从而在单图像输入条件下，同步推理出几何一致且运动合理的4D表示。这显著提升了生成内容的物理合理性与多视角一致性，推动了动态神经场景表示学习的发展。

实际应用

基于TrajScene-60K训练的模型，其实际价值体现在沉浸式内容创作与交互式媒体生成中。例如，在虚拟现实与增强现实领域，该技术能够将单张照片或概念图快速转化为可在三维空间中自由观察、并蕴含丰富动态细节的数字化资产。这对于游戏开发、影视预可视化、数字孪生以及社交媒体的动态内容生成具有重要意义，能够大幅降低高质量4D内容的生产门槛与成本。

数据集最近研究

TrajScene-60K

MoRe4D 数据集概述

一、 数据集基本信息

二、 数据集内容与构建

三、 数据集用途

四、 相关资源

一、数据集基本信息

二、数据集内容与构建

三、数据集用途

四、相关资源