TrajScene-60K

github2025-12-06 更新2025-12-07 收录

下载链接：

https://github.com/Zhangyr2022/MoRe4D

下载链接

链接失效反馈

官方服务：

资源简介：

TrajScene-60K是一个大规模数据集，包含60,000个高质量样本，这些样本通过VLM-based过滤从WebVid-10M中精选而来。数据集提供了密集的4D点轨迹、每帧深度图和遮挡掩码，并配有高质量的描述场景的标题。

TrajScene-60K is a large-scale dataset containing 60,000 high-quality samples, which are carefully selected from WebVid-10M via VLM-based filtering. The dataset provides dense 4D point trajectories, per-frame depth maps and occlusion masks, along with high-quality scene-descriptive captions.

创建时间：

2025-11-26

原始信息汇总

MoRe4D 数据集概述

数据集基本信息

数据集名称: TrajScene-60K
关联项目: MoRe4D (Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image)
数据集状态: 即将发布 (Coming Soon)
数据集规模: 60,000 个高质量样本

数据集内容与构成

数据来源: 从 WebVid-10M 数据集中通过基于 VLM 的过滤方法（使用 CogVLM2 和 DeepSeek-V3）筛选得出。
核心标注:
- 密集的 4D 点轨迹
- 逐帧深度图
- 遮挡掩码
语义信息: 包含描述场景内容和动态行为的高质量文本描述。

数据集目的与应用

主要目的: 解决 4D 生成任务中的数据稀缺问题。
应用场景: 用于训练和评估 MoRe4D 框架中的模型，特别是 4D 场景轨迹生成器 (4D-STraG)。

使用与获取

获取方式: 数据集即将在 HuggingFace 平台发布。
使用准备: 训练相关模型前，需下载指定的预训练模型检查点（如 Wan2.1-Fun-V1.1-14B-Control、OmniMAE、UniDepth 等）并放置于指定目录。

引用信息

如果使用该数据集或相关研究，请引用： bibtex @article{zhang2025more4d, title={Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image}, author={Zhang, Yanran and Wang, Ziyi and Zheng, Wenzhao and Zhu, Zheng and Zhou, Jie and Lu, Jiwen}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.05044}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，构建高质量的四维场景数据集是推动动态场景生成研究的关键。TrajScene-60K数据集通过从大规模视频库WebVid-10M中精心筛选，利用先进的视觉语言模型如CogVLM2和DeepSeek-V3进行自动化过滤，最终汇集了六万个高质量视频样本。每个样本不仅包含原始视频帧，还配备了密集的四维点轨迹、逐帧深度图以及遮挡掩码，这些详尽的标注为联合几何重建与运动生成任务提供了坚实的数据基础。

使用方法

在具体应用层面，TrajScene-60K数据集主要用于训练MoRe4D框架中的核心模块。研究人员需按照指定格式准备数据，随后可分别训练运动敏感变分自编码器、四维场景轨迹生成器以及四维视图合成模块。训练过程涉及下载特定的预训练模型权重，并执行相应的脚本命令。完成训练后，通过调用推理脚本，即可利用学习到的模型从单张静态图像生成具有几何一致性和运动合理性的完整四维动态场景，实现从数据到应用的完整闭环。

背景与挑战

背景概述

在计算机视觉与图形学领域，从单张静态图像生成动态且交互式的四维场景，是推动三维内容创作与理解的前沿课题。TrajScene-60K数据集由清华大学自动化系的研究团队于2025年提出，旨在解决四维合成任务中高质量动态数据稀缺的核心瓶颈。该数据集包含六万个视频样本，并提供了密集的四维点轨迹、逐帧深度图及遮挡掩码等丰富标注，为联合几何重建与运动生成的统一框架提供了关键的数据支撑，显著提升了模型在时空一致性与运动合理性方面的性能。

当前挑战

该数据集致力于应对从单图生成四维动态场景这一复杂问题的多重挑战。在领域层面，传统方法往往将几何重建与运动生成解耦，导致生成结果出现时空不一致与泛化能力弱等问题。在构建过程中，研究团队面临高质量四维标注数据匮乏的困境，需从大规模视频源中筛选并标注密集的点轨迹，同时确保运动语义的准确性与几何结构的连贯性，这对数据清洗、标注精度以及计算资源提出了极高要求。

常用场景

经典使用场景

在计算机视觉与图形学领域，从单张静态图像生成动态4D场景是一项前沿挑战。TrajScene-60K数据集作为MoRe4D框架的核心组成部分，其经典使用场景在于为联合几何重建与运动生成的模型提供大规模、高质量的监督数据。该数据集包含六万个视频样本，每个样本均标注了密集的四维点轨迹、逐帧深度图以及遮挡掩码，使得研究人员能够训练模型从单一图像中推断出几何一致且运动合理的时空演化过程。

解决学术问题

该数据集主要解决了4D合成研究中数据稀缺与标注不足的核心瓶颈。传统方法常将几何重建与运动生成解耦，导致时空不一致与泛化能力弱等问题。TrajScene-60K通过提供大规模、带有密集轨迹标注的视频数据，支持了端到端的联合学习范式，使得模型能够同时优化几何结构与动态行为，有效缓解了运动-几何失配的学术难题，推动了单图到4D场景生成这一研究方向向更高保真度与一致性迈进。

实际应用

在实际应用层面，TrajScene-60K支撑的技术能够赋能虚拟现实、增强现实以及数字内容创作等多个产业。例如，在影视特效制作中，可从单张概念图快速生成具有合理物理运动的多视角动态场景；在游戏开发中，能基于静态素材自动创建交互式环境动画；此外，该技术也可用于模拟训练、自动驾驶的场景合成等领域，显著降低高质量动态内容制作的时间与经济成本。

数据集最近研究