MMBench-Video

Name: MMBench-Video
Creator: 上海人工智能实验室
Published: 2024-06-21 01:26:01
License: 暂无描述

arXiv2024-06-21 更新2024-06-24 收录

下载链接：

https://github.com/open-compass/VLMEvalKit

下载链接

链接失效反馈

官方服务：

资源简介：

MMBench-Video是由上海人工智能实验室创建的一个量化基准，旨在严格评估大型视觉-语言模型（LVLMs）在视频理解方面的能力。该数据集包含约600个来自YouTube的长视频，涵盖16个主要类别，如新闻、体育等，每个视频时长从30秒到6分钟不等。数据集包含约2000个由志愿者贡献的原始问答（QA）对，覆盖26种细粒度能力。创建过程中，实施了质量控制策略以增加时间不可或缺问题的比例。MMBench-Video的应用领域广泛，旨在解决现有视频理解模型在时间理解和内容丰富性评估上的不足，推动视频理解领域的进步。

MMBench-Video is a quantitative benchmark created by the Shanghai AI Laboratory, which aims to rigorously evaluate the video understanding capabilities of Large Vision-Language Models (LVLMs). This dataset contains approximately 600 long videos sourced from YouTube, covering 16 major categories such as news, sports, etc., with each video ranging from 30 seconds to 6 minutes in duration. It includes around 2,000 original Question Answering (QA) pairs contributed by volunteers, covering 26 fine-grained capabilities. During its construction, quality control strategies were implemented to increase the proportion of temporally indispensable questions. MMBench-Video has a wide range of application scenarios, aiming to address the shortcomings of existing video understanding models in temporal understanding and content richness evaluation, and promote the advancement of the video understanding field.

提供机构：

上海人工智能实验室

创建时间：

2024-06-21

原始信息汇总

VLMEvalKit 数据集详情总结

数据集概述

VLMEvalKit（Python 包名为 vlmeval）是一个用于评估大型视觉-语言模型（LVLMs）的开源评估工具包。它支持在多个基准上进行一键式评估，无需在多个仓库中进行繁重的数据准备。VLMEvalKit 采用基于生成的方法对所有 LVLMs 进行评估，并提供基于精确匹配和 LLM 的答案提取的评估结果。

数据集、模型和评估结果

支持的图像理解数据集

数据集	数据集名称（用于 run.py）	任务
MMBench Series	MMBench_DEV_[EN/CN] <br>MMBench_TEST_[EN/CN]<br>MMBench_DEV_[EN/CN]_V11<br>MMBench_TEST_[EN/CN]_V11<br>CCBench	多选题（MCQ）
MMStar	MMStar	MCQ
MME	MME	是/否（Y/N）
SEEDBench Series	SEEDBench_IMG <br>SEEDBench2 <br>SEEDBench2_Plus	MCQ
MM-Vet	MMVet	VQA
MMMU	MMMU_[DEV_VAL/TEST]	MCQ
MathVista	MathVista_MINI	VQA
ScienceQA_IMG	ScienceQA_[VAL/TEST]	MCQ
COCO Caption	COCO_VAL	描述
HallusionBench	HallusionBench	Y/N
OCRVQA*	OCRVQA_[TESTCORE/TEST]	VQA
TextVQA*	TextVQA_VAL	VQA
ChartQA*	ChartQA_TEST	VQA
AI2D	AI2D_TEST	MCQ
LLaVABench	LLaVABench	VQA
DocVQA+	DocVQA_[VAL/TEST]	VQA
InfoVQA+	InfoVQA_[VAL/TEST]	VQA
OCRBench	OCRBench	VQA
RealWorldQA	RealWorldQA	MCQ
POPE	POPE	Y/N
Core-MM-	CORE_MM	VQA
MMT-Bench	MMT-Bench_[VAL/VAL_MI/ALL/ALL_MI]	MCQ
MLLMGuard -	MLLMGuard_DS	VQA
AesBench+	AesBench_[VAL/TEST]	MCQ
VCR-wiki+	VCR_[EN/ZH]_[EASY/HARD]_[ALL/500/100]	VQA
MMLongBench-Doc+	MMLongBench_DOC	VQA
BLINK +	BLINK	MCQ
MathVision+	MathVision<br>MathVision_MINI	VQA
MT-VQA+	MTVQA_TEST	VQA

支持的视频理解数据集

数据集	数据集名称（用于 run.py）	任务
MMBench-Video	MMBench-Video	VQA
Video-MME	Video-MME	MCQ

支持的 API 模型

模型
GPT-4v (20231106, 20240409)
GPT-4o
Gemini-1.0-Pro
Gemini-1.5-Pro
Step-1V
Reka-[Edge / Flash / Core]
Qwen-VL-[Plus / Max]
Claude3-[Haiku / Sonnet / Opus]
GLM-4v
CongRong
Claude3.5-Sonnet
GPT-4o-Mini

支持的 PyTorch / HF 模型

模型
IDEFICS-[9B/80B/v2-8B]-Instruct
InstructBLIP-[7B/13B]
LLaVA-[v1-7B/v1.5-7B/v1.5-13B]
MiniGPT-4-[v1-7B/v1-13B/v2-7B]
mPLUG-Owl2
OpenFlamingo-v2
PandaGPT-13B
Qwen-VL, Qwen-VL-Chat
VisualGLM-6B
InternLM-XComposer-[1/2]
ShareGPT4V-[7B/13B]
TransCore-M
LLaVA (XTuner)
CogVLM-[Chat/Llama3]
ShareCaptioner
CogVLM-Grounding-Generalist
Monkey, Monkey-Chat
EMU2-Chat
Yi-VL-[6B/34B]
MMAlaya
InternLM-XComposer-2.5
MiniCPM-[V1/V2/V2.5]
OmniLMM-12B
InternVL-Chat-[V1-1/V1-2/V1-5/V2], <br>Mini-InternVL-Chat-[2B/4B]-V1-5
DeepSeek-VL
LLaVA-NeXT
Bunny-Llama3
XVERSE-V-13B
PaliGemma-3B
360VL-70B
Phi-3-Vision
WeMM
GLM-4v-9B
Cambrian-[8B/13B/34B]
LLaVA-Next-[Interleave-7B/LLaMA-3/Qwen-32B]
Chameleon-[7B/30B]
[Video-LLaVA-7B-[HF]](https://github.com

搜集汇总

数据集介绍

构建方式

MMBench-Video 数据集的构建采用了来自 YouTube 的长格式多镜头视频，涵盖了人们日常生活中观看的16个主要类别。这些视频的长度从30秒到6分钟不等，旨在模拟现实世界中的应用场景。数据集包含大约2000个由志愿者贡献的原生问答对，这些问答对被设计来评估26个细粒度能力。为了确保问题的质量和相关性，所有的问答对都经过严格的交叉验证过程，并且采用了一种基于 LVLM 的过滤机制来识别和消除部分静态问题。

特点

MMBench-Video 数据集的特点在于其视频的时长、语境丰富度和时间必要性。与现有基准相比，MMBench-Video 具有更长的平均视频长度，更多的镜头数量，以及更加丰富的问答对。此外，MMBench-Video 采用了一种基于 GPT-4 的评估方法，该方法在准确性和一致性方面表现出色，并且与人类判断更为一致。

使用方法

使用 MMBench-Video 数据集时，LVLM 会对视觉问题产生自由形式的回答。由于真实答案的长度和风格可能有所不同，因此评估这些回答的准确性是一个挑战。为了解决这个问题，数据集采用了 GPT-4 作为自动评分工具，它根据内容相似性为模型输出和真实答案分配一个从0到3的分数。这种方法提高了评估的质量，并且与人类判断更为一致。

背景与挑战

背景概述

在多媒体领域，视频以其普遍性和丰富的内容，成为人们生活中不可或缺的一部分。随着大型视觉语言模型（LVLMs）的兴起，视频理解领域的研究也在不断深入。传统的视频问答（VideoQA）数据集虽然在定量评估方面提供了一定的指标，但往往无法涵盖视频内容的全貌，也无法充分评估模型的时间理解能力。为了解决这些局限性，研究人员引入了MMBench-Video，这是一个旨在严格评估LVLMs在视频理解方面的能力的定量基准。MMBench-Video纳入了来自YouTube的长时间视频，并采用自由式问题，以反映实际使用案例。该基准精心设计，旨在测试模型的时间推理技能，所有问题都根据精心构建的能力分类法由人工标注。研究人员使用GPT-4进行自动化评估，结果表明，与早期的基于LLM的评估相比，GPT-4具有更高的准确性和鲁棒性。通过MMBench-Video，研究人员对包括专有和开源LVLMs在内的图像和视频进行了全面的评估。MMBench-Video作为研究社区的一个宝贵资源，促进了LVLMs的改进评估，并推动了视频理解领域的发展。

当前挑战

MMBench-Video数据集面临的主要挑战包括：1)现有视频问答数据集主要包含短视频，通常不到一分钟，而网络视频内容通常持续几分钟或更长时间，导致评估基准与现实世界应用场景之间存在差异；2)当前视频问答基准仅限于几个基本视频任务，包括概念存在、对象关系识别和活动识别，而现有基准没有涵盖更细粒度的感知和推理能力；3)现有的评估范式使用GPT-3.5对视频语言模型生成的开放式答案进行评分，初步研究表明，基于GPT-3.5的评估准确性较低，与人类偏好存在显著差异，降低了评估结果的可靠性。为了解决这些问题，研究人员开发了新的VideoQA基准MMBench-Video，以评估LVLMs在视频理解方面的有效性。它纳入了大约600个来自YouTube的具有丰富上下文的网络视频，涵盖了新闻、体育等16个主要类别，涵盖了人们日常生活中观看的大多数视频主题。每个视频的持续时间从30秒到6分钟不等，以适应对更长视频的视频理解能力的评估。该基准包括大约2000个原始问答（QA）对，由志愿者贡献，涵盖了总共26个细粒度能力。在数据集收集过程中，研究人员实施了质量控制策略，以明确增加时间不可或缺问题的比例。定量统计表明，MMBench-Video在时间持续时间、上下文丰富度和时间不可或缺性方面与现有基准存在显著差异。在评估过程中，LVLM对视觉问题产生自由式响应。由于基准答案的长度和风格各不相同，准确评估这些响应是一个重大挑战。鉴于先前基于GPT-3.5的评估的局限性，研究人员提出了使用更强大的GPT-4进行自动化评分的方法。这种方法优先考虑语义相似性，而忽略语言组织中的细微差异。采用精心设计的评估提示，基于GPT-4的评估在准确性、一致性和与人类判断的一致性方面表现出更高的质量。

常用场景

经典使用场景

MMBench-Video数据集主要用于评估大型视觉语言模型（LVLMs）在视频理解方面的能力。该数据集包含了从YouTube上收集的长时间视频，以及由志愿者创作的高质量问答对，涵盖了广泛的视频主题和细粒度的能力。通过MMBench-Video，研究人员可以全面评估LVLMs在感知和推理方面的表现，并发现其在空间和时间理解方面的局限性。这一评估有助于推动LVLMs在视频理解领域的进一步发展。

衍生相关工作

MMBench-Video数据集的发布促进了视频理解领域的研究进展。基于MMBench-Video，研究人员可以开发新的视频问答基准，进一步评估LVLMs在视频理解方面的能力。此外，MMBench-Video还可以用于探索新的视频理解任务和应用，例如视频情感分析、视频事件检测等。通过这些相关工作，我们可以更好地理解视频内容，并将其应用于更广泛的领域。

数据集最近研究