Unified Spatio-Temporal Grounding (Uni-STG) dataset
收藏arXiv2025-03-18 更新2025-03-20 收录
下载链接:
http://arxiv.org/abs/2503.13983v1
下载链接
链接失效反馈官方服务:
资源简介:
Unified Spatio-Temporal Grounding (Uni-STG)数据集是由中国科学技术大学的研究团队构建的,包含480K个样本,涵盖视频时间定位、指代表达式理解和时空视频定位三个任务。该数据集充分利用了大型语言模型在多模态理解中的潜力,为细粒度的时空理解提供了支持。
The Unified Spatio-Temporal Grounding (Uni-STG) dataset was constructed by a research team from the University of Science and Technology of China. It contains 480K samples covering three tasks: video temporal grounding, referring expression comprehension, and spatio-temporal video grounding. This dataset fully leverages the potential of large language models in multimodal understanding, providing support for fine-grained spatio-temporal understanding.
提供机构:
中国科学技术大学
创建时间:
2025-03-18
搜集汇总
数据集介绍

构建方式
Uni-STG数据集的构建旨在解决现有多模态大语言模型在时空视频定位任务中的局限性。通过整合多个现有数据集,如Charades-STA、TACoS和DiDeMo,并结合高质量的视频数据,研究人员设计了一个包含48万实例的综合数据集。数据集的构建过程包括对象提取、边界框生成、时间边界精炼和边界框过滤等多个步骤,确保了数据的高质量和多样性。每个视频帧都配备了精确的时空注释,涵盖了视频时间定位(VTG)、指代表达理解(REC)和时空视频定位(STVG)三个任务。
特点
Uni-STG数据集的特点在于其广泛的覆盖范围和精细的注释。数据集包含48万个实例,涵盖了多种对象类别和复杂的场景,确保了模型在时空定位任务中的鲁棒性。每个实例都配备了精确的时间戳和空间坐标,使得模型能够同时处理时间和空间维度的信息。此外,数据集的多样性体现在其来源的广泛性,涵盖了从日常活动到复杂场景的多种视频类型,为模型提供了丰富的训练样本。
使用方法
Uni-STG数据集的使用方法主要集中在多任务指令调优上。研究人员通过将数据集与其他任务(如视觉问答、视频描述和对话)相结合,确保了模型在时空定位任务中的表现,同时保留了其通用理解能力。具体使用时,模型通过时空感知查询和查询引导的空间解码器,将视频帧的视觉特征与时空信息相结合,生成精确的时空坐标。这种多任务训练方法不仅提升了模型在时空定位任务中的表现,还增强了其在其他视频理解任务中的泛化能力。
背景与挑战
背景概述
Unified Spatio-Temporal Grounding (Uni-STG) 数据集由中国科学院大学和中国人民大学的研究团队于2025年提出,旨在解决多模态大语言模型(MLLMs)在时空视频定位任务中的局限性。该数据集包含48万个实例,涵盖视频时间定位(VTG)、指代表达理解(REC)和时空视频定位(STVG)三个任务。Uni-STG的构建为MLLMs提供了同时处理时间和空间维度的能力,推动了视频理解领域的进一步发展。该数据集的提出不仅填补了现有数据集的空白,还为时空视频定位任务提供了高质量的标注数据,显著提升了模型在复杂视频场景中的表现。
当前挑战
Uni-STG数据集面临的挑战主要体现在两个方面。首先,时空视频定位任务本身具有较高的复杂性,要求模型能够同时捕捉视频中的时间信息和空间信息。由于视频帧之间的动态变化,模型需要精确提取每一帧的时空信息,并将其与文本查询进行对齐。其次,数据集的构建过程中也面临诸多挑战,包括如何从现有视频数据中提取高质量的时空标注,以及如何确保标注的准确性和一致性。此外,视频中的视觉信息量巨大,如何有效地将视觉特征映射到空间坐标也是一个技术难点。这些挑战使得时空视频定位任务成为当前多模态研究中的一个重要难题。
常用场景
经典使用场景
Uni-STG数据集在视频时空定位任务中展现了其独特的价值。通过结合时空感知查询和查询引导的空间解码器,该数据集能够精确捕捉视频帧中的动态空间信息,并实现时间维度的定位。这种能力使得Uni-STG在视频内容分析、动作识别以及复杂场景理解等任务中表现出色,尤其是在需要同时处理时间和空间信息的场景中,如视频中的物体追踪和事件定位。
实际应用
在实际应用中,Uni-STG数据集被广泛用于视频监控、自动驾驶、智能家居等领域。例如,在视频监控中,该数据集可以帮助系统实时定位特定事件的发生时间和位置;在自动驾驶中,它可以用于识别和追踪道路上的动态物体;在智能家居中,Uni-STG能够辅助设备理解用户的动作指令,提升交互体验。
衍生相关工作
Uni-STG数据集的推出催生了一系列相关研究工作,如STVGBert、TubeDETR和CG-STVG等模型。这些模型在时空视频定位任务中取得了显著进展,进一步推动了多模态大语言模型在视频理解中的应用。此外,Uni-STG还为其他时空定位任务提供了高质量的数据支持,促进了该领域的多样化发展。
以上内容由遇见数据集搜集并总结生成



