TraingTangTian
收藏Hugging Face2026-05-15 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/Wuuu3511/TraingTangTian
下载链接
链接失效反馈官方服务:
资源简介:
Spatial-TTT-Data-97k 是一个用于视觉空间智能任务的高质量迷你数据集,包含约97,000个样本。该数据集旨在引导模型通过流式视频块更新其内部状态,以结构化的方式记忆和组织全局3D空间信号,从而支持流式视觉空间理解。数据集包含密集的场景描述,用于训练模型捕获几何对应关系和跨帧的时间连续性。它被专门用于Spatial-TTT框架的训练和复现,配置中使用的块大小为2648,视频最大帧数为128。此外,项目还提供了Spatial-TTT-Data-Streaming数据集,这是自备流式数据的一部分,可用于训练长时程视觉空间回忆(VSR)和持续视觉空间计数(VSC)等任务,相关研究见Cambrian-S项目。
Spatial-TTT-Data-97k is a high-quality mini-dataset for visual-spatial intelligence tasks, containing approximately 97,000 samples. The dataset aims to guide models in updating their internal states through streaming video blocks, memorizing and organizing global 3D spatial signals in a structured manner to support streaming visual-spatial understanding. It includes dense scene descriptions for training models to capture geometric correspondences and temporal continuity across frames. It is specifically designed for training and reproducing the Spatial-TTT framework, with a block size of 2648 and a maximum video frame count of 128 in the configuration. Additionally, the project provides the Spatial-TTT-Data-Streaming dataset, which is part of the self-contained streaming data and can be used for training tasks such as long-term visual-spatial recall (VSR) and continuous visual-spatial counting (VSC), with related research referenced in the Cambrian-S project.
创建时间:
2026-05-14
搜集汇总
数据集介绍

构建方式
TraingTangTian 数据集,即 Spatial-TTT-Data-97k,是 Spatial-TTT 框架中用于训练和复现的高质量空间数据集。该数据集基于流式视觉空间智能需求构建,通过密集场景描述任务引导模型以测试时训练机制更新快速权重,从而以紧凑的非线性记忆形式积累长程视频流中的三维空间证据。数据涵盖约9.7万个样本,源自精心设计的空间问答与场景描述对,用于微调混合TTT架构模型,实现高效的空间上下文压缩与几何结构捕捉。
特点
该数据集的核心特点在于其针对流式视觉空间理解的特殊设计:样本以长视频片段形式组织,支持大块更新与滑动窗口注意力的并行处理,确保了硬件效率与时空连续性;同时引入轻量级深度三维卷积实现空间预测,有效捕捉帧间几何对应与时间连续性。作为一个迷你版高质量资源,它聚焦于从无限视频流中筛选、组织并持久化空间信息,为动态场景下的三维推理与记忆任务提供了宝贵训练基础。
使用方法
使用 TraingTangTian 数据集需配合 Spatial-TTT 开源代码库。首先从 HuggingFace 下载数据集,然后在配置文件 `qwen-vl-finetune/qwenvl/data/__init__.py` 中设置 `annotation_path` 和 `data_path` 路径。训练时执行 `spatial_ttt_train.sh` 脚本,默认块大小2648、窗口大小2648、最大帧数128。该数据集也可用于 VSR(长程视觉空间召回)与 VSC(连续视觉空间计数)任务的训练,进一步拓展其应用场景。
背景与挑战
背景概述
在视觉空间智能领域,如何从连续视频流中动态提取、组织并维护三维空间证据一直是一个核心瓶颈。2026年,清华大学、腾讯混元与南洋理工大学的研究团队联合提出了Spatial-TTT框架,并发布了配套的TraingTangTian数据集(即Spatial-TTT-Data-97k),旨在解决流式视觉空间理解中的状态更新与记忆压缩问题。该数据集包含约9.7万条高质量空间问答样本,专门用于训练模型在测试时通过自适应快速权重更新来累积长程视频中的几何结构与时间连续性信息。其发布不仅为空间多模态大模型提供了标准化的训练基准,更通过结合滑动窗口注意力与深度时空卷积的设计,显著推动了对视频空间感知与连续推理的能力边界。
当前挑战
当前空间智能面临的核心挑战在于,传统注意力机制难以高效处理无界视频流中的长程空间依赖,导致模型在持续观测中容易丢失结构化的三维信息。TraingTangTian数据集的构建与使用需应对以下难题:其一,需要在保持预训练视觉语言知识的前提下,设计轻量且可插拔的测试时训练机制,以实现动态空间记忆的在线更新;其二,如何在有限样本规模(约9.7万条)中覆盖多样的空间任务(如场景描述、物体定位、路径计数),并确保数据标注的几何一致性;其三,数据集的编排中需平衡大块更新的计算效率与细粒度时空连续性的建模精度,这要求对采样策略、帧间对应关系及损失函数进行精细调校。
常用场景
经典使用场景
在视频空间智能研究领域,TraingTangTian数据集专为流式视觉空间理解任务设计,其核心应用场景在于训练模型在持续的视频流中动态维护与更新3D空间状态。该数据集包含约9.7万条高质量空间样本,通过稠密场景描述引导模型学习如何以紧凑的非线性记忆形式累积长程视频中的几何证据。研究人员常将其与混合测试时训练(TTT)架构结合,在滑动窗口注意力与空间预测机制的协同下,实现帧间几何对应关系的捕捉与时间连续性的保持,从而在VSI-Bench等视频空间基准上取得领先性能。
实际应用
在实际应用中,TraingTangTian训练出的模型展现出在机器人导航、增强现实和自动驾驶等场景的巨大潜力。机器人可借助该数据集习得的空间记忆能力,在连续移动中实时更新环境地图并完成物体搜寻任务;AR设备能更准确地在动态视频流中锚定虚拟信息与真实空间的对应关系;自动驾驶系统则能提升对长程行车视频中障碍物轨迹、路网结构的持续性理解。该数据集提供的小样本训练方案还显著降低了实际部署的计算门槛,使得在边缘设备上实现类人的空间感知成为可能。
衍生相关工作
基于TraingTangTian数据集,一系列衍生工作相继涌现。其公开的流式数据子集Spatial-TTT-Data-Streaming已被应用于Cambrian-S项目中的长程视觉空间召回(VSR)与连续视觉空间计数(VSC)任务,开创了视频超感知研究的新范式。此外,该数据集所依赖的混合TTT架构催生了将测试时训练与大型视觉语言模型融合的探索,相关工作在视频定位、动态3D重建等方向持续拓展。这些衍生研究共同构建了从数据构建、模型设计到评估基准的完整闭环,加速了视频空间智能从学术概念向实用技术的转化进程。
以上内容由遇见数据集搜集并总结生成



