InfiniBench
收藏arXiv2024-06-28 更新2024-07-03 收录
下载链接:
https://vision-cair.github.io/InfiniBench
下载链接
链接失效反馈官方服务:
资源简介:
InfiniBench是由阿卜杜拉国王科技大学等机构创建的一个综合性长视频理解基准数据集,旨在评估大型多模态模型在处理非常长视频时的性能。该数据集包含108.2K个问题-答案对,视频来源包括电影和日常电视节目,平均时长为76.34分钟。数据集的创建过程结合了视频帧、剧本和摘要等多种信息源,通过GPT-4自动生成问题和答案。InfiniBench主要应用于评估模型在长视频理解中的表现,特别是在人类中心的问题解决和深度上下文理解方面。
InfiniBench is a comprehensive long video understanding benchmark dataset created by institutions including King Abdullah University of Science and Technology (KAUST). It aims to evaluate the performance of large multimodal models when processing extremely long videos. This dataset contains 108.2K question-answer pairs, with video sources covering movies and daily TV programs, and an average duration of 76.34 minutes. The dataset was developed by integrating multiple information sources such as video frames, scripts and summaries, with questions and answers automatically generated via GPT-4. InfiniBench is primarily used to evaluate model performance in long video understanding, particularly in human-centric problem-solving and deep contextual comprehension.
提供机构:
阿卜杜拉国王科技大学
创建时间:
2024-06-28
原始信息汇总
InfiniBench 数据集概述
数据集简介
InfiniBench 是一个用于非常长视频理解的全面基准测试,旨在评估大型多模态模型在长视频理解方面的能力。该数据集包含以下特点:
- 最长视频时长:平均时长为 76.34 分钟。
- 最多的问答对:共有 108.2K 个问答对。
- 问题多样性:涵盖九种不同的技能,包括多选题和开放式问题。
- 以人为中心:视频来源包括电影和日常电视节目,问题设计旨在测试人类水平的理解和推理能力。
数据集技能分类
InfiniBench 包含九种不同的技能,具体包括:
- 全局外观
- 场景过渡
- 以及其他七种技能(具体名称未在提供的内容中详细说明)
数据集统计信息
- 视频数量和时长:来自 TVQA 和 MovieNet 数据集的视频数量及其时长。
- 问题数量:各类技能的问题数量。
- 问题和答案长度:问题和答案长度的直方图分布。
数据集比较
InfiniBench 在问答对数量、视频数量和平均时长方面均超过现有视频理解基准。
数据集结果
- 整体性能:不同模型在 InfiniBench 上的表现相对较低,突显了该基准的独特挑战。
- 特定技能性能:不同技能的性能差异显著,其中场景过渡和电影剧透问题对模型来说最具挑战性。
数据集链接
- 论文:arXiv
- 代码:GitHub
- 数据集:Hugging Face
搜集汇总
数据集介绍

构建方式
InfiniBench数据集的构建过程采取了从电影和日常电视节目中收集长视频的方式。为了确保数据集的全面性,研究人员使用了包括视频帧、视频剧本和视频摘要在内的多种信息源。通过GPT-4等大型语言模型,数据集的构建过程包括自动化的命题和答案生成。这些信息源的使用为数据集提供了丰富的视觉和上下文内容,使其能够涵盖从全局外观到场景转换等多个方面的技能评估。
特点
InfiniBench数据集具有几个显著特点。首先,它是目前最大的长视频问答数据集,拥有108.2K个问答对。其次,数据集的平均视频时长为76.34分钟,是目前最长的视频时长。此外,InfiniBench的问答设计涵盖了九种不同的技能,包括全局外观、场景转换、角色动作序列、时间事件、事件链接、深度上下文理解、电影剧透问题、本地视觉和上下文问题。这些问题的多样性使得数据集能够全面评估模型在长视频理解方面的能力。
使用方法
使用InfiniBench数据集时,研究人员可以对其进行问答任务的评估,包括多选题和开放式问题。对于多选题,使用准确率作为评估指标,而对于开放式问题,则使用GPT-4进行评分,评分范围为0到5。此外,数据集还可以用于评估模型在处理长视频时的长距离时空推理和视觉语言对齐能力。通过对现有大型多模态模型(LMMs)的评估,研究人员可以了解模型在不同技能上的表现,并推动LMMs向人类水平的长视频理解方向发展。
背景与挑战
背景概述
InfiniBench数据集的研究背景是针对长视频理解的独特挑战。该数据集由沙特国王科技大学、莫纳什大学和莱斯大学的研究人员于2024年创建,旨在填补现有视频理解基准在处理长视频方面的空白。InfiniBench提供了最长视频时长(平均76.34分钟)、最多的问题-答案对(108.2K)以及多样化的问题设计,包括多项选择题和开放式问题,考察了九种不同的技能。视频来源为电影和日常电视节目,具有特定的人级问题设计,如电影剧透问题,需要批判性思维和全面理解。该数据集对相关领域的影响深远,通过全面评估现有的大型多模态模型,展示了在长视频和人类水平理解方面的显著挑战,并促进了多模态模型社区向长视频和人类水平理解的推进。
当前挑战
InfiniBench数据集相关的挑战包括:1) 长视频理解的挑战,需要处理大量的图像和更全面的信息;2) 构建过程中的挑战,包括视频来源的局限性(仅限于电影和电视节目)和依赖字幕的问题。尽管存在这些挑战,InfiniBench数据集仍然是目前最大的长视频问答基准,为评估和推动长视频理解技术的发展提供了宝贵的资源。
常用场景
经典使用场景
InfiniBench 数据集在非常长的视频理解领域具有广泛的应用。它为评估大型多模态模型在处理数小时视频内容时的性能提供了标准。数据集包含了大量的问答对,涵盖了全球外观、场景转换、角色行为序列、时间事件、事件链接、深度上下文理解、电影剧透问题、本地视觉和上下文问题等多个技能。这些问题的设计旨在模拟人类对长视频内容的理解,例如,通过观察角色的服装变化来评估模型对视频的持续视觉理解能力。InfiniBench 数据集的典型使用场景包括但不限于:评估多模态模型在处理长视频时的性能,为模型的改进提供指导,以及推动长视频理解领域的研究进展。
解决学术问题
InfiniBench 数据集解决了现有基准主要关注较短视频片段的问题,填补了长视频理解领域的空白。它提供了大量的问答对,覆盖了多个技能,并包含了电影和日常电视节目等人类中心的视频来源。这使得研究者能够评估模型在处理长视频时的性能,并推动模型朝着人类水平的理解和推理能力发展。InfiniBench 数据集的引入为长视频理解领域的研究提供了新的方向,并有望推动相关技术的进步。
衍生相关工作
InfiniBench 数据集的引入激发了长视频理解领域的研究热潮,衍生出了一系列相关的经典工作。这些工作包括但不限于:开发更先进的多模态模型,以更好地理解和处理长视频内容;设计更有效的评估指标和算法,以更准确地评估模型在长视频理解任务上的性能;探索长视频理解的应用场景,例如视频监控、视频分析、视频内容推荐等。InfiniBench 数据集的衍生工作推动了长视频理解领域的研究进展,并有望为相关技术的应用提供新的可能性。
以上内容由遇见数据集搜集并总结生成



