VidSTG|视频分析数据集|时空定位数据集
收藏github2024-04-22 更新2024-05-31 收录
下载链接:
https://github.com/Guaranteer/VidSTG-Dataset
下载链接
链接失效反馈资源简介:
VidSTG数据集是基于视频关系数据集VidOR构建的,用于时空视频定位任务,特别是针对多形式句子的处理。数据集包含了视频分区文件和句子注释文件,详细记录了视频ID、帧数、帧率、宽度、高度等信息,以及对象、关系和时间地标的注释。
The VidSTG dataset is constructed based on the VidOR video relation dataset, designed for spatiotemporal video grounding tasks, particularly focusing on the processing of multimodal sentences. The dataset includes video partition files and sentence annotation files, which meticulously document video IDs, frame counts, frame rates, widths, heights, and annotations of objects, relations, and temporal landmarks.
创建时间:
2020-03-24
原始信息汇总
数据集概述
数据集来源
- VidSTG数据集:基于视频关系数据集VidOR构建。
数据集组成
- 原始VidOR数据集:包含7,000个训练视频、835个验证视频和2,165个测试视频。由于测试视频的标注尚未可用,测试视频被忽略。
- VidSTG数据集:将10%的训练视频作为验证数据,原验证视频作为测试数据。
数据集内容
- 视频分区文件:包括训练、验证和测试集的视频ID文件(train_files.json, val_files.json, test_files.json)。
- 句子标注文件:包括训练、验证和测试集的句子标注文件(train_annotations.json, val_annotations.json, test_annotations.json)。
标注结构
- 视频ID:唯一标识视频。
- 帧数:视频中的帧数。
- 分辨率:视频的宽度和高度。
- 主体/对象列表:包含主体/对象的ID和类别。
- 使用段:定义视频中使用的帧范围。
- 使用关系:定义视频中的关系,包括主体ID、对象ID、谓词及关系的帧范围。
- 时间地面实况:定义关系的时间范围。
- 标题:描述视频内容的陈述句。
- 问题:关于视频内容的疑问句。
引用信息
- 若使用此数据集,请引用论文:
- VidSTG数据集论文:Zhang, Zhu et al. "Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences". CVPR, 2020.
- VidOR数据集论文:Shang, Xindi et al. "Annotating Objects and Relations in User-Generated Videos". Proceedings of the 2019 on International Conference on Multimedia Retrieval, 2019.
AI搜集汇总
数据集介绍

构建方式
VidSTG数据集基于视频关系数据集VidOR构建,该数据集包含7,000个训练视频、835个验证视频和2,165个测试视频。由于测试视频的边界框标注尚未公开,因此省略了测试视频,并将10%的训练视频划分为验证集,原始验证视频则作为测试集。具体标注过程详见论文《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》。
特点
VidSTG数据集的显著特点在于其丰富的时空标注和多形式的句子描述。每条标注不仅包含视频的基本信息,如帧数、分辨率等,还详细记录了视频中主体与客体的关系及其在时间维度上的变化。此外,数据集提供了陈述句和疑问句两种形式的句子标注,增强了其在多任务学习中的应用潜力。
使用方法
用户可通过下载提供的视频分区文件和句子标注文件进行数据集的使用。具体而言,train_files.json、val_files.json和test_files.json分别包含训练、验证和测试集的视频ID,而train_annotations.json、val_annotations.json和test_annotations.json则包含相应的句子标注。通过这些文件,用户可以轻松获取视频的时空信息和多形式的句子描述,从而进行视频时空定位等任务的研究与开发。
背景与挑战
背景概述
VidSTG数据集由Zhang等人于2020年提出,旨在解决多形式句子在视频中的时空定位问题。该数据集基于VidOR数据集构建,后者包含了7,000个训练视频、835个验证视频和2,165个测试视频的密集边界框标注。VidSTG通过引入时空视频定位任务,扩展了VidOR的应用场景,为视频理解和多模态数据处理提供了新的研究方向。其核心研究问题是如何在视频中准确定位与多形式句子相关的时空信息,这一问题对视频分析和自然语言处理领域具有重要意义。
当前挑战
VidSTG数据集面临的挑战主要集中在两个方面。首先,时空视频定位任务本身具有高度复杂性,需要在视频的时序和空间维度上同时进行精确的定位,这对算法的鲁棒性和准确性提出了极高要求。其次,数据集的构建过程中,如何从原始视频中提取有效的时空关系标注,并确保标注的准确性和一致性,是另一个重要挑战。此外,多形式句子的引入增加了语义理解的难度,要求模型能够处理不同类型的语言表达,如陈述句和疑问句,进一步提升了任务的复杂性。
常用场景
经典使用场景
VidSTG数据集的经典使用场景主要集中在视频与自然语言的跨模态理解与交互领域。该数据集通过提供视频片段与多形式句子(如陈述句和疑问句)的对应关系,使得研究者能够探索如何从自然语言描述中精准定位视频中的时空信息。具体而言,研究者可以利用该数据集训练模型,使其能够根据输入的句子,自动识别并定位视频中特定对象或事件的时空位置,从而实现视频内容的语义解析与检索。
解决学术问题
VidSTG数据集解决了视频与自然语言跨模态理解中的关键学术问题,特别是在时空视频定位(Spatio-Temporal Video Grounding)领域。该数据集通过提供丰富的视频与句子对应关系,帮助研究者开发能够从自然语言描述中提取时空信息的算法,从而推动了视频内容理解与检索技术的发展。此外,该数据集的多形式句子标注(如陈述句和疑问句)也为研究者提供了更全面的语言表达形式,进一步提升了模型的泛化能力与实用性。
衍生相关工作
VidSTG数据集的发布催生了一系列相关的经典工作,特别是在视频与自然语言跨模态理解领域。基于该数据集,研究者们开发了多种时空视频定位算法,这些算法不仅能够从自然语言描述中提取时空信息,还能在复杂场景中实现精准定位。此外,该数据集的多形式句子标注也激发了研究者对多模态语言理解的关注,推动了相关模型的改进与优化。这些衍生工作不仅丰富了视频内容理解的研究方向,也为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成
