SVBench

Name: SVBench
Creator: 中国科学院自动化研究所, 中国科学院大学
Published: 2025-02-15 22:29:44
License: 暂无描述

arXiv2025-02-15 更新2025-02-19 收录

下载链接：

https://yzy-bupt.github.io/SVBench

下载链接

链接失效反馈

官方服务：

资源简介：

SVBench是由中国科学院自动化研究所和中国科学院大学创建的一个具有时序多轮对话功能的视频流理解基准。该数据集包含来自6个流媒体平台的1353个视频，经过严格的过滤和精选。每个视频平均包含36.94个QA对，是已知视频数据集中数量最多的。SVBench旨在通过构建时序对话路径来全面评估大型视觉语言模型在视频流理解方面的多轮对话能力。

SVBench is a video stream understanding benchmark with temporal multi-turn dialogue capabilities, developed by the Institute of Automation, Chinese Academy of Sciences and the University of Chinese Academy of Sciences. This dataset includes 1,353 videos sourced from six streaming platforms, after rigorous filtering and curation. Each video contains an average of 36.94 QA pairs, which is the highest number among existing video datasets. SVBench aims to comprehensively evaluate the multi-turn dialogue abilities of large vision-language models in video stream understanding by constructing temporal dialogue paths.

提供机构：

中国科学院自动化研究所, 中国科学院大学

创建时间：

2025-02-15

搜集汇总

数据集介绍

构建方式

SVBench数据集的构建采用了半自动化标注流程，通过多阶段的大语言模型辅助生成过程和数轮人工标注，共获取了1353个流视频和49,979个问答对。首先，使用预训练的大语言模型（如GPT-4o）自动生成视频片段中的问答链，然后由人工标注者进行修改、删除和调整，确保问答链的连贯性和与视频内容的对齐。其次，通过LLM搜索和识别相邻问答链之间的潜在关系，并建立时间关联，以评估模型理解历史内容并进行多轮对话的能力。最后，构建时间对话路径，以同步视频的进展，评估模型在时间上的推理能力。

使用方法

SVBench数据集的使用方法包括对话评估和流评估两种实验设置。在对话评估中，模型被提供所有之前的问答对作为上下文，直到当前时间戳。当对话序列按时间顺序结束时，模型转向下一个视频片段并解决其相关的问答链。在流评估中，模型在遇到与后续问答链有时间关联的问题时，有80%的概率跳转到相关的问题。这两种评估方法旨在挑战模型理解时间依赖性和其推理不同但相关视频片段中事件序列的能力。

背景与挑战

背景概述

SVBench数据集是一个专注于长上下文流视频理解的大型视觉语言模型（LVLMs）评估基准。该数据集由中国科学院自动化研究所、中国科学院大学、快手科技等机构的研究人员于2025年发布，旨在填补当前视频理解评估基准在长上下文流视频理解方面的空白。SVBench数据集包含了1,353个来自6个流媒体平台的高质量视频和49,979个精心标注的问答对，用于评估LVLMs在流视频中的多轮对话能力。该数据集的构建过程采用了半自动化的标注流程，通过生成代表连续多轮对话的问答链和构建连续问答链之间的时间链接，以评估LVLMs在处理流视频中的历史内容和进行多轮对话的能力。

当前挑战

SVBench数据集面临的主要挑战包括：1) 所解决的领域问题：尽管大型视觉语言模型在传统基准上取得了显著进展，但在长上下文流视频理解方面的适用性评估仍然存在差距。现有的视频理解基准通常强调孤立的单实例文本输入，而未能评估在整个视频流持续期间维持时间推理的能力。SVBench通过引入具有时间多轮问答链的任务来解决这个问题。2) 构建过程中所遇到的挑战：构建一个包含时间多轮问答链的大规模数据集需要克服一系列技术挑战，包括数据过滤和场景分割、问答链的构建、问答质量的评估以及时间链接的识别等。这些挑战需要研究人员开发新的技术和方法来确保数据集的质量和有效性。

常用场景

经典使用场景

SVBench数据集被广泛应用于评估大型视觉语言模型（LVLMs）在流视频理解方面的能力。通过构建时间多轮问答链，SVBench能够全面评估LVLMs在处理长时间视频流中的时间推理能力。该数据集包含了1,353个流视频和49,979个问答对，涵盖了广泛的视频类别和问题类别，为研究者提供了丰富的评估资源和挑战。

解决学术问题

SVBench数据集解决了当前视频理解基准在评估LVLMs流视频理解能力方面的不足。现有的视频理解基准通常强调单个实例的文本输入，而忽视了视频流中的时间推理能力。SVBench通过引入时间多轮问答链和构建时间关联，为评估LVLMs在长时间视频流中的时间推理能力提供了全面的评估框架。

实际应用

SVBench数据集在实际应用中具有重要的价值。它可以帮助研究者开发更强大的LVLMs，以应对流视频理解中的挑战。此外，SVBench还可以用于评估和比较不同LVLMs在流视频理解方面的性能，为选择合适的模型提供参考。在实际应用中，SVBench可以帮助构建更智能的流视频问答系统，提高用户交互体验。

数据集最近研究