Unified Spatio-Temporal Grounding (Uni-STG) dataset

github2025-03-21 更新2025-04-12 收录

下载链接：

https://github.com/Jayce1kk/SpaceVLLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含480K实例，涵盖三个任务，旨在充分利用MLLM在时间和空间维度上的定位潜力。

This dataset comprises 480,000 instances spanning three tasks, and is designed to fully exploit the positioning potential of MLLMs in both temporal and spatial dimensions.

创建时间：

2025-03-21

原始信息汇总

SpaceVLLM数据集概述

数据集基本信息

名称: SpaceVLLM
主要功能: 赋予多模态大语言模型时空视频定位能力
相关论文: SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability

数据集内容

数据集名称: Unified Spatio-Temporal Grounding (Uni-STG) dataset
数据规模: 480K实例
任务类型: 包含3种任务

数据集特点

主要挑战解决:
- 提取视频中每帧的准确时空信息
- 将每帧的视觉令牌精确映射到对应的空间坐标
创新点:
- 采用一组交错的时空感知查询来捕获时间感知和动态空间信息
- 提出查询引导的空间解码器建立查询与空间坐标的对应连接

应用与性能

应用范围: 时间、空间、时空和视频理解任务
性能表现: 在11个基准测试中达到最先进的性能

引用信息

bibtext @article{wang2025spacevllm, title={SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability}, author={Wang, Jiankang and Liu, Zhihang and Li, Yang and Ge, Jiannan and Xie, Hongtao and Zhang, Yongdong and others}, journal={arXiv preprint arXiv:2503.13983}, year={2025} }

搜集汇总

数据集介绍

构建方式

在时空视频定位研究领域，Uni-STG数据集的构建采用了多任务协同的设计范式。研究团队通过系统整合视频理解中的时空维度特征，精心构建了包含48万实例的大规模样本库，覆盖时空定位三大核心任务。该数据集通过交叉验证的标注流程确保时空坐标的精确性，并采用分层采样策略平衡不同场景的样本分布，为模型训练提供了全面的时空语义表征基础。

特点

Uni-STG数据集最显著的特征在于其多维度的时空耦合标注体系。每个实例不仅包含精确到帧级的时间戳标注，还具备像素级的空间边界框坐标，形成完整的时空四维坐标表征。数据集特别设计了动态空间信息捕捉机制，通过交错式时空感知查询技术，有效解决了长视频序列中空间坐标漂移的难题。其任务多样性设计使得单个样本可同时支持时间定位、空间定位和时空联合定位三种推理模式。

使用方法

该数据集的使用需结合特定的时空感知模型架构。研究者可采用端到端的训练方式，将视频帧序列与时空查询向量共同输入多模态大语言模型。在推理阶段，模型通过查询引导的空间解码器将视觉特征映射到原始坐标空间，实现时空联合预测。数据集提供标准化的评估协议，支持对模型在时间精度、空间准确度以及时空协同性能三个维度的系统评测。

背景与挑战

背景概述

Unified Spatio-Temporal Grounding (Uni-STG)数据集由王建康等研究人员于2025年构建，旨在解决多模态大语言模型在时空视频定位任务中的局限性。该数据集隶属于SpaceVLLM研究项目，包含48万个实例，覆盖三种任务类型，为同时实现时间维度和空间维度的精确定位提供了重要支持。时空视频定位是计算机视觉领域的核心问题之一，涉及对视频中特定对象在时间和空间上的精准识别与追踪。Uni-STG数据集的建立填补了该领域高质量标注数据的空白，为多模态大语言模型在复杂时空理解任务中的性能提升奠定了数据基础。

当前挑战

时空视频定位面临双重技术挑战：在领域问题层面，现有模型难以同步处理视频帧的时序感知与动态空间信息映射，导致时空坐标关联精度不足；在构建过程层面，数据集创建需克服大规模视频帧时空标注的复杂性，包括跨帧目标追踪的一致性维护、高密度视觉标记与空间坐标的精确对应等难题。Uni-STG数据集通过设计交错时空感知查询机制，有效解决了视觉标记与空间坐标的映射瓶颈，但其标注过程中仍需处理视频时长差异、目标遮挡、视角变化等现实场景干扰因素。

常用场景

经典使用场景

在视频理解与多模态大语言模型的研究中，Uni-STG数据集为时空视频定位任务提供了丰富的标注数据。该数据集广泛应用于视频内容分析、行为识别以及跨模态检索等领域，特别是在需要同时理解视频中时间序列和空间位置信息的复杂场景中。研究人员利用该数据集训练和评估模型，以实现对视频中特定对象在时间和空间维度上的精确定位。

解决学术问题

Uni-STG数据集解决了多模态大语言模型在时空视频定位任务中的两大核心挑战：一是难以提取视频中每一帧的精确时空信息，二是大量视觉标记难以准确映射到对应的空间坐标。通过提供480K个标注实例，该数据集显著提升了模型在时空维度上的定位能力，为视频理解领域的学术研究提供了重要支撑。

衍生相关工作

Uni-STG数据集的推出催生了一系列相关研究，特别是在多模态大语言模型和时空视频定位领域。例如，SpaceVLLM模型利用该数据集实现了在11个基准测试中的最优性能。此外，许多后续工作基于该数据集进一步探索了视频理解、跨模态检索等方向，推动了相关领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集