VNBench
收藏arXiv2024-06-14 更新2024-06-21 收录
下载链接:
https://github.com/joez17/VideoNIAH
下载链接
链接失效反馈官方服务:
资源简介:
VNBench是由中国科学院自动化研究所开发的视频理解综合基准数据集,旨在评估视频模型的细粒度理解和时空建模能力。该数据集通过合成视频生成,包含检索、排序和计数等任务,覆盖广泛的上下文长度。VNBench通过插入不相关的图像/文本'针'到原始视频中,生成仅基于这些'针'的标注,确保视频来源的多样性和查询-响应的多样性。此外,通过插入多个'针',VNBench严格评估模型的时序理解能力。该数据集的应用领域包括视频理解模型的评估和改进,特别是在处理长距离依赖任务方面。
VNBench is a comprehensive benchmark dataset for video understanding developed by the Institute of Automation, Chinese Academy of Sciences. It is designed to evaluate the fine-grained understanding and spatiotemporal modeling capabilities of video models. Generated via synthetic video production, this dataset encompasses tasks such as retrieval, ranking and counting, and spans a wide range of context lengths. VNBench inserts irrelevant image/text 'needles' into original videos to generate annotations solely based on these 'needles', ensuring the diversity of video sources and query-response pairs. Furthermore, by inserting multiple 'needles', VNBench rigorously assesses the temporal understanding capabilities of models. The application fields of this dataset include the evaluation and improvement of video understanding models, especially for tasks involving long-range dependencies.
提供机构:
中国科学院自动化研究所
创建时间:
2024-06-14
搜集汇总
数据集介绍

构建方式
VNBench 是通过合成视频生成的方式构建的。该数据集采用了 VideoNIAH (Video Needle In A Haystack) 框架,将测试视频内容与其查询-响应对解耦,通过将不相关的图像/文本 '针' 插入原始视频中,并从中生成注释,从而确保视频来源的多样性和查询-响应对的多样性。此外,通过插入多个 '针',VNBench 严格评估了模型的时序理解能力。
特点
VNBench 具有以下特点:1) 通过合成视频生成的方式,避免了数据泄露风险,提高了数据集的可扩展性和效率;2) 包含了检索、排序和计数等任务,能够有效评估模型对视频的细粒度理解能力和时空建模能力;3) 支持长上下文视频评估,可以添加各种长度和领域的视频到测试集中,使得长上下文视频评估成为可能。
使用方法
VNBench 的使用方法如下:1) 下载 VNBench 数据集;2) 选择合适的视频理解模型进行评估;3) 使用统一的提示模板进行推理;4) 使用循环评估策略减少随机性;5) 使用 GPT-3.5 模型作为裁判,判断模型的预测答案是否正确。
背景与挑战
背景概述
视频理解是当前多模态大型语言模型(MLLMs)发展的关键领域。为了评估特定视频理解能力,现有的视频基准通常需要根据目标能力进行仔细的视频选择,并手动标注与特定视频内容匹配的查询-响应对。然而,构建高质量的视频基准仍然是一项耗时而具有挑战性的任务。首先,需要根据目标能力进行精细的视频选择。例如,构建强时间感知基准在许多视频源上具有挑战性,因为许多原始视频本质上缺乏时间依赖性。其次,构建基准数据通常涉及耗时的提示工程、手动标注和数据过滤。此外,使用与真实视频内容相对应的查询-响应对可能会导致数据泄露风险,其中视频内容可能在视频模型的训练中被误用,从而损害基准的公平性。这些因素限制了开发视频理解模型的可扩展性和效率。
当前挑战
为了解决这些挑战,我们提出了VideoNIAH(Video Needle In A Haystack),这是一个利用合成视频生成的简单且可扩展的视频基准构建框架。VideoNIAH通过将无关的图像/文本“针”插入原始视频“干草堆”中,创新地将测试视频与其相应的查询-响应对分离。这使得视频来源多样化,视频长度灵活,展现出高度的扩展性。此外,我们可以通过插入多个时空“针”并根据预定义规则在任意视频上自动生成查询-响应对,轻松设计视频理解探测任务。
常用场景
经典使用场景
VNBench 数据集作为视频多模态大语言模型 (MLLM) 视频理解能力的评估框架,被广泛应用于视频理解模型性能评估。该数据集通过在原始视频中插入与视频内容无关的图像/文本 'needles',生成与视频内容解耦的查询-响应对,从而高效地评估模型的细粒度理解能力和时空建模能力。VNBench 包含检索、排序和计数三个任务,分别评估模型对视频内容的细粒度理解、时间动态理解和事件序列理解能力。
衍生相关工作
VNBench 数据集的提出,为视频理解模型评估领域带来了新的思路和方法。基于 VNBench 数据集,研究人员可以开展更多关于视频理解模型性能评估的研究,例如:1) 设计更多样化的视频理解任务,例如视频摘要、视频问答和视频生成等。2) 探索视频理解模型的时空建模能力,例如视频事件检测、视频行为识别和视频情感分析等。3) 评估不同视频理解模型的性能差异,例如开源模型和私有模型、不同规模的模型和不同训练策略的模型等。4) 研究 VNBench 数据集对视频理解模型性能评估的影响,例如数据集规模、数据集质量和数据集多样性等。
数据集最近研究
最新研究方向
视频理解能力是当前多模态大型语言模型(MLLMs)发展的关键方向之一。VideoNIAH(Video Needle In A Haystack)框架的提出,为评估视频理解能力提供了一个可扩展的合成视频生成基准构建框架。该框架通过将无关的图像/文本“针”插入原始视频“堆”中,将测试视频内容与其查询-响应对解耦,从而确保视频来源的多样性和查询-响应对的多样性。VNBench基准测试包括检索、排序和计数等任务,可以有效地评估视频模型在细粒度理解能力和时空建模能力方面的能力。此外,VNBench还支持长上下文评估,为视频模型的长距离依赖任务提供了评估平台。通过在VNBench上的评估,发现现有视频模型在长距离依赖任务上仍然表现不佳,这表明视频理解模型仍有很大的改进空间。VideoNIAH框架的提出,为未来视频基准测试的发展提供了新的思路和方法。
相关研究论文
- 1Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs中国科学院自动化研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



