IVGSZ/VStream-QA

Name: IVGSZ/VStream-QA
Creator: IVGSZ
Published: 2024-06-19 16:21:51
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/IVGSZ/VStream-QA

下载链接

链接失效反馈

官方服务：

资源简介：

VStream-QA是一个专门为在线视频流理解设计的问题回答基准数据集。它包含两个离线评估基准（VS-Ego和VS-Movie）和两个在线评估基准（RVS-Ego和RVS-Movie）。数据集基于Ego4d和MovieNet构建，提供了详细的视频切割和特征提取指南。评估部分详细说明了如何使用提供的脚本来评估模型，并给出了测试数据的具体格式。

提供机构：

IVGSZ

原始信息汇总

VStream-QA 数据集概述

数据集详情

VStream-QA 是一个专门为在线视频流理解设计的新型问答基准。包含两个离线评估基准（VS-Ego 和 VS-Movie）和两个在线评估基准（RVS-Ego 和 RVS-Movie）。

数据集统计

子集	视频数量	问题数量
VS-Ego	246	1465
VS-Movie	83	1905
RVS-Ego	99	1465
RVS-Movie	1000	1905

数据准备

该测试数据集基于 Ego4d 和 MovieNet 构建。

步骤

下载视频：按照官方网站的指示下载 Ego4d 视频数据和 MovieNet 关键帧数据。
剪辑视频：根据提供的 JSON 文件剪辑原始视频并保存每个子集的视频/图像/特征文件。
- 示例：剪辑 Ego4d 视频 original_video.mp4 从 start_time 秒到 end_time 秒，并保存为 video_id.mp4。
- 对于 MovieNet 视频，需要从 start_shot 到 end_shot 剪辑关键帧。
提取特征（可选）：推荐提取所有视频片段的 ViT 特征，并保存为 video_id.safetensors，形状为 [Length, 256, 1024]，帧率为 1 fps。

评估

请按照 Flash-VStream 中的脚本评估模型。

评估基准

VS-Ego 和 VS-Movie 基准：用于离线长视频问答。
- 使用以下注释文件进行评估：
  
  VStream-QA ├──vstream │ ├──test_qa_ego4d.json │ ├──test_qa_movienet.json
- 每个测试问答项包含： json { "id": "001464", "video_id": "000246", "question": "Was I at the office before playing with the Jenga blocks?", "answer": "Yes.", "answer_type": "Order Judging(Y/N)", "duration": 841 }
RVS-Ego 和 RVS-Movie 基准：用于在线视频流问答。
- 使用以下注释文件进行评估：
  
  VStream-QA ├──vstream-realtime │ ├──test_qa_ego4d.json │ ├──test_qa_movienet.json
- 每个测试问答项包含： json { "id": "001464", "video_id": "000098", "question": "Was I at the office before playing with the Jenga blocks?", "answer": "Yes.", "answer_type": "Order Judging(Y/N)", "start_time": 2430, "end_time": 3270, "gt_duration": 841, "duration": 3270 }

许可证

该项目基于 CC-BY-NC-4.0 许可证。

搜集汇总

数据集介绍

构建方式

在视频理解领域，为评估模型对在线视频流的实时分析能力，VStream-QA数据集应运而生。该数据集以Ego4d和MovieNet两大权威视频资源库为基础，通过精心设计的视频切割流程构建而成。具体而言，研究者依据提供的JSON文件，从原始视频中截取特定时间片段或关键帧序列，生成独立的视频剪辑，并为其分配唯一标识符。这一构建过程确保了数据样本在时序和内容上的精确对齐，为后续的问答任务奠定了坚实的结构基础。

特点

VStream-QA数据集的核心特点在于其首创性地将视频问答任务划分为离线和在线两种评估范式。数据集包含VS-Ego、VS-Movie、RVS-Ego和RVS-Movie四个子集，分别针对长视频离线理解与实时视频流在线理解设计。每个样本不仅包含视频标识、问题与答案，还细致标注了答案类型、视频时长乃至真实答案对应的时间区间。这种多层次、细粒度的标注体系，使得该数据集能够全面评估模型在不同视频理解场景下的时序推理、内容感知与实时决策能力。

使用方法

使用VStream-QA数据集进行评估时，需遵循其严谨的流程规范。用户首先需根据官方指引下载并切割原始视频，生成符合要求的视频剪辑文件。为提升处理效率，建议预先提取视频的视觉Transformer特征并存储。评估阶段，针对离线基准（VS-Ego/VS-Movie），模型需基于完整的视频剪辑回答问题；而对于在线基准（RVS-Ego/RVS-Movie），模型则需在视频流播放过程中进行实时问答。通过调用数据集提供的标准化测试文件，研究者可以便捷地量化模型在各项视频理解任务上的性能表现。

背景与挑战

背景概述

随着多媒体技术的飞速发展，视频流理解已成为计算机视觉与自然语言处理交叉领域的前沿课题。在此背景下，IVGSZ/VStream-QA数据集应运而生，由相关研究团队于2024年构建并公开，其核心研究问题聚焦于在线视频流的实时问答任务。该数据集基于Ego4d和MovieNet两大知名视频资源库，精心设计了VS-Ego、VS-Movie、RVS-Ego和RVS-Movie四个子集，分别针对离线长视频与在线流媒体的问答场景。通过引入时序推理与事件顺序判断等复杂问题，VStream-QA不仅推动了视频语言模型在动态环境中的认知能力，也为流媒体内容理解设立了新的评估基准，对智能交互系统的发展产生了深远影响。

当前挑战

VStream-QA数据集致力于解决视频流实时问答这一新兴领域的核心挑战，其首要难题在于模型需在连续视频流中实时捕捉关键事件并进行时序推理，这对计算效率与记忆机制提出了极高要求。构建过程中的挑战同样显著，数据采集需从海量原始视频中精确裁剪出具有叙事连贯性的片段，并标注涵盖顺序判断、对象识别等多类型问题，确保问答对既具多样性又保持逻辑严谨。此外，在线评估基准的创建还需模拟真实流媒体环境，设计合理的时序标注与评估协议，以全面衡量模型在动态场景下的理解与响应能力。

常用场景

经典使用场景

在视频理解领域，VStream-QA数据集为在线视频流问答任务提供了基准测试框架。该数据集通过VS-Ego和VS-Movie子集支持离线长视频问答，同时借助RVS-Ego和RVS-Movie子集模拟实时视频流环境，使研究者能够评估模型在动态视频内容中的时序推理与事件理解能力。其精心设计的问答对覆盖了从简单事实检索到复杂时序判断的多种任务，为视频语言模型的性能验证奠定了坚实基础。

解决学术问题

该数据集有效应对了视频问答研究中时序依赖与实时处理两大核心挑战。通过引入在线评估基准，它解决了传统视频QA任务中忽略的流式数据理解问题，推动了模型在连续视频帧中的即时推理能力发展。同时，其基于Ego4d和MovieNet的多样化视频源，为研究跨领域视频内容理解提供了统一平台，显著促进了视频语言模型在细粒度时空关系建模方面的学术进展。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，例如Flash-VStream等高效视频流处理框架的提出。这些工作聚焦于优化模型的实时推理效率与内存占用，推动了轻量化视频理解架构的发展。同时，基于该数据集的时序注意力机制与增量学习策略研究，也为处理长视频流中的信息累积与遗忘问题提供了创新思路，持续丰富着视频语言模型的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集