IVGSZ/VStream-QA
收藏VStream-QA 数据集概述
数据集详情
VStream-QA 是一个专门为在线视频流理解设计的新型问答基准。包含两个离线评估基准(VS-Ego 和 VS-Movie)和两个在线评估基准(RVS-Ego 和 RVS-Movie)。
数据集统计
| 子集 | 视频数量 | 问题数量 |
|---|---|---|
| VS-Ego | 246 | 1465 |
| VS-Movie | 83 | 1905 |
| RVS-Ego | 99 | 1465 |
| RVS-Movie | 1000 | 1905 |
数据准备
步骤
-
下载视频:按照官方网站的指示下载 Ego4d 视频数据和 MovieNet 关键帧数据。
-
剪辑视频:根据提供的 JSON 文件剪辑原始视频并保存每个子集的视频/图像/特征文件。
- 示例:剪辑 Ego4d 视频
original_video.mp4从start_time秒到end_time秒,并保存为video_id.mp4。 - 对于 MovieNet 视频,需要从
start_shot到end_shot剪辑关键帧。
- 示例:剪辑 Ego4d 视频
-
提取特征(可选):推荐提取所有视频片段的 ViT 特征,并保存为
video_id.safetensors,形状为 [Length, 256, 1024],帧率为 1 fps。
评估
请按照 Flash-VStream 中的脚本评估模型。
评估基准
-
VS-Ego 和 VS-Movie 基准:用于离线长视频问答。
-
使用以下注释文件进行评估:
VStream-QA ├──vstream │ ├──test_qa_ego4d.json │ ├──test_qa_movienet.json
-
每个测试问答项包含: json { "id": "001464", "video_id": "000246", "question": "Was I at the office before playing with the Jenga blocks?", "answer": "Yes.", "answer_type": "Order Judging(Y/N)", "duration": 841 }
-
-
RVS-Ego 和 RVS-Movie 基准:用于在线视频流问答。
-
使用以下注释文件进行评估:
VStream-QA ├──vstream-realtime │ ├──test_qa_ego4d.json │ ├──test_qa_movienet.json
-
每个测试问答项包含: json { "id": "001464", "video_id": "000098", "question": "Was I at the office before playing with the Jenga blocks?", "answer": "Yes.", "answer_type": "Order Judging(Y/N)", "start_time": 2430, "end_time": 3270, "gt_duration": 841, "duration": 3270 }
-
许可证
该项目基于 CC-BY-NC-4.0 许可证。




