ST-Align

Name: ST-Align
Creator: 北京航空航天大学, 合肥工业大学, 中国科学院信息工程研究所, 美团
Published: 2025-01-15 01:58:12
License: 暂无描述

arXiv2025-01-15 更新2025-01-16 收录

下载链接：

https://github.com/appletea233/LLaVA-ST

下载链接

链接失效反馈

官方服务：

资源简介：

ST-Align数据集由北京航空航天大学、合肥工业大学、中国科学院信息工程研究所和美团联合创建，旨在支持细粒度的时空多模态理解任务。该数据集包含430万条训练样本，涵盖了15种不同的任务类型，数据来源包括WebVid-10M、Panda-70M、InternVid-10M等多个公开数据集以及自收集数据。数据集的创建过程包括内容对齐、坐标对齐和多任务指令调优三个阶段，确保模型能够逐步学习时空对齐和多任务处理能力。ST-Align数据集的应用领域包括时空视频定位、事件定位与描述、空间视频定位等，旨在解决现有多模态大语言模型在时空细粒度理解任务中的不足。

The ST-Align dataset, jointly created by Beijing University of Aeronautics and Astronautics, Hefei University of Technology, Institute of Information Engineering, Chinese Academy of Sciences, and Meituan, is designed to support fine-grained spatiotemporal multimodal understanding tasks. The dataset contains 4.3 million training samples, covering 15 different task types, and incorporates data from multiple publicly available datasets such as WebVid-10M, Panda-70M, InternVid-10M, as well as self-collected data. The dataset creation process involves three stages: content alignment, coordinate alignment, and multi-task instruction optimization, to ensure that the model can progressively learn spatiotemporal alignment and multi-task processing capabilities. The application fields of the ST-Align dataset include spatiotemporal video localization, event localization and description, and spatial video localization, aiming to address the limitations of existing multimodal large language models in understanding tasks at the spatiotemporal fine granularity.

提供机构：

北京航空航天大学, 合肥工业大学, 中国科学院信息工程研究所, 美团

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

ST-Align数据集的构建基于多模态大语言模型（MLLM）的需求，旨在解决时空细粒度理解任务中的挑战。数据集通过GPT-4-turbo对现有视频数据集的文本注释进行修订和增强，生成了4.3百万个训练样本，涵盖了15种细粒度多模态理解任务。具体构建过程中，数据集特别关注了时空交错的任务，如时空视频定位（STVG）、事件定位与描述（ELC）和空间视频定位（SVG），并为每个任务提供了2000个验证样本。

特点

ST-Align数据集的特点在于其丰富的时空交错任务和细粒度的多模态理解能力。数据集不仅包含了传统的时空定位任务，还引入了新的事件定位与描述任务，能够同时处理时间和空间维度的细粒度信息。此外，数据集通过语言对齐的位置嵌入（LAPE）和时空打包器（STP）等技术，显著提升了模型在时空交错任务中的表现。数据集的多样性和复杂性使其成为评估MLLM在细粒度多模态理解任务中的理想选择。

使用方法

ST-Align数据集的使用方法主要分为三个阶段：内容对齐、坐标对齐和多任务指令微调。在内容对齐阶段，模型通过视频描述数据初步实现视觉与语言内容的对齐；在坐标对齐阶段，模型利用细粒度视觉理解任务数据，学习时空坐标的对齐；最后，在多任务指令微调阶段，模型通过高质量标注数据集进行多任务训练，进一步提升其在时空交错任务中的表现。数据集的使用不仅支持模型的训练，还提供了相应的基准测试，用于评估MLLM在细粒度多模态理解任务中的能力。

背景与挑战

背景概述

ST-Align数据集由北京航空航天大学、合肥工业大学、中国科学院信息工程研究所以及美团的研究团队共同开发，旨在支持细粒度的时空多模态理解任务。该数据集于2025年发布，包含430万训练样本，涵盖了时空视频定位（STVG）、事件定位与描述（ELC）以及空间视频定位（SVG）等任务。ST-Align的提出是为了解决现有多模态大语言模型（MLLMs）在同时处理时空定位任务时的困难，特别是在语言与视觉坐标对齐以及视频特征压缩过程中保持细粒度信息的挑战。该数据集通过引入语言对齐的位置嵌入（LAPE）和时空打包器（STP）等技术，显著提升了模型在时空交错任务中的表现。

当前挑战

ST-Align数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，现有的多模态大语言模型在处理时空交错任务时，难以同时实现精确的时空定位。由于时空坐标组合的复杂性，语言与视觉坐标的对齐变得尤为困难，导致模型在时空交错任务中的表现受限。其次，在数据集构建过程中，如何有效压缩视频特征并保留细粒度的时空信息是一个关键挑战。传统的特征压缩方法往往会导致空间关系和细粒度信息的丢失，从而影响模型在时空交错任务中的表现。此外，数据集的构建还需要大量的高质量标注数据，特别是在时空交错任务中，如何生成与时空管（spatiotemporal tubes）对应的语言描述也是一个技术难点。

常用场景

经典使用场景

ST-Align数据集在多模态大语言模型（MLLM）的研究中，主要用于细粒度的时空理解任务。该数据集通过提供大量的时空对齐样本，支持模型在视频中同时定位事件的时间和空间坐标。经典的使用场景包括时空视频定位（STVG）、事件定位与描述（ELC）以及空间视频定位（SVG）等任务。这些任务要求模型能够根据语言描述，精确地定位视频中的事件发生时间和空间位置，从而实现对视频内容的深度理解。

解决学术问题

ST-Align数据集解决了多模态大语言模型在时空对齐任务中的两大核心问题：一是时空坐标组合的复杂性，二是视频特征压缩过程中细粒度信息的丢失。通过引入语言对齐的位置嵌入（LAPE）和时空打包器（STP），该数据集显著简化了视觉与语言坐标表示的对齐过程，并有效保留了视频中的细粒度时空信息。这一突破使得模型能够在复杂的时空任务中表现出色，推动了多模态理解领域的研究进展。

衍生相关工作

ST-Align数据集的推出催生了一系列相关研究工作，尤其是在多模态大语言模型的时空理解任务中。基于该数据集，研究者们提出了多种改进模型，如LLaVA-ST，该模型通过引入LAPE和STP模块，显著提升了时空对齐任务的性能。此外，ST-Align还启发了其他数据集和基准的构建，如VidSTG和Charades-STA，这些工作进一步推动了多模态时空理解领域的发展，并为未来的研究提供了丰富的实验数据和方法参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集