Spatial-mem
收藏arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://spmem.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
Spatial-mem数据集是为训练和评估一种新型视频世界模型框架而创建的,该框架旨在通过基于几何的长久空间记忆来增强视频世界模型的长久一致性。该数据集包含静态场景部分的点云表示,用于存储和检索信息,并通过过滤动态元素来记住静态场景。数据集还包含一组历史参考帧作为稀疏的长久情节记忆。该数据集旨在帮助模型在长时间范围内保持场景一致性,从而为计算机图形学、机器人学和其他交互式应用提供无限长度且一致的世界生成能力。
The Spatial-mem dataset was created for training and evaluating a novel video world model framework, which aims to enhance the long-term consistency of video world models through geometry-based persistent spatial memory. This dataset includes point cloud representations of static scene segments, used for storing and retrieving information, and remembers static scenes by filtering out dynamic elements. It also contains a set of historical reference frames as sparse persistent episodic memory. This dataset is designed to help models maintain scene consistency over long time horizons, thereby providing infinite-length and consistent world generation capabilities for computer graphics, robotics, and other interactive applications.
提供机构:
斯坦福大学, 上海交通大学, 香港中文大学, 上海人工智能实验室, 南洋理工大学
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
Spatial-mem数据集构建于MiraData原始视频素材之上,通过精心设计的几何重建流程实现三维场景记忆。研究团队采用4D重建技术Mega-SaM提取相机参数与逐帧深度图,并运用TSDF-Fusion算法对动态对象进行抑制,最终形成静态场景的清洁重建。每个视频片段被分割为97帧的剪辑单元,其中前49帧作为源序列用于构建空间记忆,后48帧作为目标序列用于监督训练,中间设置过渡帧确保时序连续性。这种构建方式产生了9万组结构化视频样本,每个样本均包含显式的3D空间记忆与未来观测数据的精准配对。
特点
该数据集的核心特征在于其几何锚定的三维记忆机制,通过静态点云与动态视频生成的协同架构实现长程一致性。数据样本包含三种记忆形态:基于最近帧的工作记忆保障短期运动连贯性,几何基础的空间记忆维持静态场景结构,稀疏历史关键帧构成的叙事记忆保留视觉细节。特别值得注意的是,数据集通过TSDF-Fusion算法实现了动态元素的智能过滤,使得静态场景重建的精度达到19.10 PSNR和0.6471 SSIM,在视图回忆一致性指标上显著优于现有基线方法。这种多模态记忆体系为视频生成模型提供了前所未有的时空一致性保障。
使用方法
使用该数据集时需遵循几何引导的递推生成流程:首先通过CUT3R框架在线更新三维点云状态,将每步推理生成的静态地图与历史空间记忆对齐融合;随后以点云渲染作为扩散模型的附加条件输入,通过预训练的3DVAE编码器转换为条件潜变量;最后结合最近五帧的上下文令牌和历史参考帧的交叉注意力机制,实现动态元素生成与静态场景维护的协同控制。实验表明,当采用A100显卡集群时,建议设置480×720分辨率、49帧视频长度和8的批处理大小进行训练,通过6,000次迭代可获得最优的长期一致性生成效果。
背景与挑战
背景概述
Spatial-mem数据集由斯坦福大学、上海交通大学、香港中文大学等机构的研究团队于2025年提出,旨在解决视频世界模型中长期一致性的关键问题。该数据集通过引入几何基础的长时空间记忆机制,结合人类记忆理论中的空间记忆、工作记忆和情景记忆三种形式,显著提升了视频生成模型在场景重现时的质量与一致性。作为首个明确存储3D记忆机制的视频数据集,Spatial-mem为计算机视觉领域的动态场景建模提供了新范式,其创新性的点云表示方法和记忆融合技术对虚拟现实、机器人仿真等需要长期环境交互的应用具有重要价值。
当前挑战
Spatial-mem数据集面临的核心挑战体现在两个维度:在领域问题层面,传统视频生成模型受限于有限的时间上下文窗口,难以维持场景重访时的几何一致性,导致动态物体轨迹断裂和静态场景细节丢失;在构建过程层面,数据集的4D重建环节面临运动物体深度估计噪声问题,TSDF融合算法在处理大视角变化时易产生伪影,而在线点云更新机制需要平衡计算效率与几何精度。此外,如何有效分离视频序列中的静态结构与动态元素,以及设计稀疏历史关键帧的选取策略,都是构建过程中需要解决的技术难点。
常用场景
经典使用场景
Spatial-mem数据集在视频世界模型的研究中扮演着关键角色,特别是在处理长期空间记忆和场景一致性方面。该数据集通过结合几何基础的长时空间记忆机制,为视频生成模型提供了静态场景部分的精确表示,从而在生成动态视频时保持场景的长期一致性。这一特性使得Spatial-mem在模拟复杂交互环境时表现出色,例如在自动驾驶模拟、虚拟现实场景生成等领域。
解决学术问题
Spatial-mem数据集解决了视频生成模型中长期场景一致性的核心问题。传统视频生成模型由于有限的时序上下文窗口,难以在重新访问场景时保持一致性,导致严重的遗忘现象。通过引入几何基础的长时空间记忆机制,该数据集显著提升了生成视频的质量和一致性,为研究长期一致的视频生成提供了重要工具。这一突破为计算机视觉和图形学领域的研究开辟了新的方向。
衍生相关工作
Spatial-mem数据集的推出催生了一系列相关研究工作。基于其几何基础的长时记忆机制,研究者们开发了多种改进的视频生成模型,如结合点云表示的TrajectoryCrafter和DiffusionAsShader等。这些工作进一步扩展了视频生成模型的应用范围,特别是在精确相机控制和动态场景处理方面。同时,该数据集也启发了对认知科学中记忆机制在计算机视觉中应用的新探索。
以上内容由遇见数据集搜集并总结生成



