STKit
收藏arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://ikodoh.github.io/STVLM
下载链接
链接失效反馈官方服务:
资源简介:
STKit是一个旨在增强视觉语言模型(VLMs)在动态视频中进行时空推理能力的数据集,包含现实世界视频的3D注释,详细描述了对象的运动动力学,如旅行距离、速度、移动方向等。该数据集通过结合标注数据和伪标签数据,支持LLaVA-OneVision模型的微调,以生成具备时空推理能力的ST-VLM模型。
STKit is a dataset developed to enhance the spatiotemporal reasoning capabilities of Vision-Language Models (VLMs) when processing dynamic videos. It includes 3D annotations for real-world videos, which elaborate on the motion dynamics of objects, including travel distance, velocity, movement direction, and other relevant metrics. This dataset supports the fine-tuning of the LLaVA-OneVision model by combining labeled and pseudo-labeled data, thereby generating an ST-VLM model equipped with spatiotemporal reasoning capabilities.
提供机构:
韩国大学, NEC Labs America, UC San Diego, KAIST
创建时间:
2025-03-25
搜集汇总
数据集介绍

构建方式
STKit数据集通过整合多种动态场景视频构建而成,包括自动驾驶和体育赛事领域。具体而言,该数据集利用了Argoverse2和NuScenes等自动驾驶数据集提供的LiDAR点云标注,以及Ego-Exo4D体育视频中的SLAM估计轨迹。对于无标注视频,采用基于4D重建的伪标注流程,通过MonST3R框架进行几何重建,并结合Metric3Dv2解决尺度模糊问题,最终通过语义分割和轨迹跟踪生成运动学标注。
特点
STKit数据集专注于增强视觉语言模型在时空推理方面的能力,特别是对运动学参数的理解,如物体移动距离、速度和方向。其特点包括七种核心任务分类,涵盖单物体和多物体的距离与方向比较,任务设计旨在全面评估模型的时空推理能力。此外,数据集通过平衡标签分布和多样化领域覆盖(如自动驾驶与体育视频),确保了评估的公正性和广泛适用性。
使用方法
STKit数据集主要用于训练和评估视觉语言模型的时空推理能力。使用方法包括将视频与标注的边界框及运动学参数输入模型,通过模板生成的问答对进行指令微调。例如,模型需根据视频内容预测物体的移动距离或速度,并回答相关问题。为提升泛化性,建议将STKit与通用监督微调数据集(如LLaVA-Video-178K)结合使用,以避免过拟合。评估时可通过STKit-Bench对模型在七类任务上的表现进行标准化测试。
背景与挑战
背景概述
STKit数据集由韩国大学、NEC Labs America、UC San Diego和KAIST的研究团队于2025年推出,旨在增强视觉语言模型(VLMs)在动态视频中的时空推理能力。该数据集聚焦于运动学理解,如物体移动距离、速度和方向等任务,填补了现有VLMs在时空推理方面的空白。STKit通过结合3D标注视频和4D重建伪标签技术,为自动驾驶和体育分析等领域提供了重要的数据支持,推动了多模态AI在复杂动态场景中的应用。
当前挑战
STKit数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,现有VLMs难以准确分析动态视频中的运动学元素,如物体轨迹和速度计算,这限制了模型在自动驾驶等实时应用中的表现。在构建过程中,获取精确的3D标注视频数据成本高昂且耗时,研究者不得不开发基于4D重建的伪标签生成管道以扩展数据规模,但单目重建中的尺度模糊和部分遮挡问题仍影响数据质量。此外,平衡不同任务和场景的数据分布以确保模型泛化能力也是一项重要挑战。
常用场景
经典使用场景
STKit数据集在动态视频分析领域展现了卓越的应用价值,尤其在需要精确计算运动物体轨迹、速度和方向的场景中。例如,在篮球运动员的运动分析中,该数据集能够准确预测运动员在复杂轨迹下的总移动距离,而无需依赖3D点云或深度图等额外模态信息。这种能力使其成为体育分析和自动驾驶领域中不可或缺的工具。
解决学术问题
STKit数据集有效解决了视觉语言模型(VLMs)在时空推理方面的关键挑战。传统VLMs在分析动态视频时,往往难以准确捕捉物体的运动学特性,如移动距离和速度。通过提供带有3D注释的真实世界视频数据,STKit显著提升了模型在时空推理任务中的表现,填补了现有研究在运动学理解上的空白。
衍生相关工作
STKit数据集的推出催生了一系列相关研究,特别是在增强视觉语言模型的时空推理能力方面。例如,基于STKit训练的ST-VLM模型在多个时空推理基准测试中表现优异,显著超越了GPT-4V等基线模型。此外,该数据集还启发了4D重建技术的进一步发展,为无标签视频的运动学分析提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



