VideoMME, MVBench

Name: VideoMME, MVBench
Creator: T ́el ́ecom SudParis,Institut Polytechnique de Paris,France
Published: 2025-09-18 17:18:42
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://github.com/momentslab/frame-sampling

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一种新的标准化基准，用于比较最先进的视频问答小视觉语言模型（SVLMs），以消除帧采样偏差。该基准使用两种协议：标准采样和自适应采样。标准采样包括均匀帧率采样和单帧采样，而自适应采样则采用MAXInfo算法和CSTA方法。基准测试在两个视频理解数据集VideoMME和MVBench上进行，以评估不同帧采样策略对SVLMs性能的影响。

This paper proposes a novel standardized benchmark for comparing state-of-the-art small vision-language models (SVLMs) for video question answering, aiming to eliminate frame sampling bias. This benchmark incorporates two protocols: standard sampling and adaptive sampling. Standard sampling encompasses uniform frame rate sampling and single-frame sampling, whereas adaptive sampling utilizes the MAXInfo algorithm and the CSTA method. Benchmark evaluations are conducted on two video understanding datasets, VideoMME and MVBench, to assess the impact of different frame sampling strategies on the performance of SVLMs.

提供机构：

T ́el ́ecom SudParis,Institut Polytechnique de Paris,France

创建时间：

2025-09-18

原始信息汇总

数据集概述

基本信息

数据集名称：Video Frame Sampling Benchmark
关联论文：Frame Sampling Strategies Matter: A Benchmark for small vision language models
论文链接：https://arxiv.org/abs/2509.14769

核心功能

统一视频后端，支持可配置的帧采样策略（first、center、fps、maxinfo、csta）
提供多模态模型的即用型封装，包括SmolVLM、Qwen2、Qwen2.5、InternVL和Ovis
基准测试工具，计算BLEU、ROUGE、METEOR、CIDEr和BERTScore，可选Video-MME评估助手
模型间比较、FPS敏感性分析和单帧基线脚本

安装方式

推荐使用PDM：通过pdm install安装项目及依赖，使用pdm shell激活虚拟环境
替代方案pip：创建虚拟环境并通过pip install -e .安装

使用方式

基准测试多个模型：使用pdm run bench命令，指定视频文件夹路径、输出路径、采样模式和提示词
快速推理助手：使用pdm run vlm命令，指定模型名称、视频路径和采样模式
单帧基线测试：使用pdm run bench_single命令，指定视频文件夹路径和输出路径
Video-MME评估：使用pdm run vlm_VideoMME和pdm run vlm_VideoMME_evaluation命令

直接脚本执行

通过直接运行Python脚本执行相同功能，包括benchmark_models.py、benchmark_fps_model.py、benchmark_single_frame.py和vlm.py

仓库结构

src/video_model_research/：核心库代码（帧采样、模型封装、指标和工具）
scripts/：ICASSP实验中使用的命令行入口点

引用

学术工作中使用此仓库需引用相关论文

搜集汇总

数据集介绍

构建方式

VideoMME与MVBench作为视频理解领域的基准数据集，其构建过程体现了严谨的多模态评估框架。VideoMME采集了时长从11秒至1小时的开放域视频，平均时长约17分钟，覆盖丰富的视觉场景与动态变化；MVBench则专注于短片段视频，平均时长约16秒，强调瞬时动作与时空推理。两者均采用多选题问答形式，通过标准化协议提取视频帧：包括均匀采样（固定帧率）、单帧采样（首帧或中心帧），以及自适应采样（MaxInfo算法与CSTA模型），确保输入数据的可控性与可比性。所有帧采样均设置统一上限（Nmax=96帧），以适配不同小规模视觉语言模型的令牌容量，消除硬件偏差。

特点

该数据集的核心特点在于其帧采样策略的多样性与标准化设计。VideoMME以长视频为主，注重时序连贯性与细粒度动态捕捉，适用于检验模型对复杂事件的理解能力；MVBench则以短视频为核心，聚焦瞬时动作识别与时空推理，更适合评估模型在有限上下文中的表现。两者均提供多任务评估框架，涵盖时空感知、动作识别、物体关系推理等维度。此外，数据集通过开源代码与预选帧集合，支持研究者复现实验并扩展至其他视频理解任务，体现了高透明度与可扩展性。

使用方法

使用该数据集时，需首先根据目标模型与任务选择帧采样策略：均匀采样适用于长视频时序分析，自适应采样（如MaxInfo或CSTA）则更适合动态密集的短视频任务。研究者需加载预处理的帧序列，输入至小规模视觉语言模型（如Qwen2.5-VL、Ovis2等）进行推理，并通过多项选择题准确率评估性能。为确保公平比较，所有实验需固定最大帧数（Nmax=96）与采样参数（如FPS=2），避免因帧数差异导致的性能偏差。数据集配套代码库提供了标准化推理管道，支持自定义采样策略与模型集成。

背景与挑战

背景概述

VideoMME与MVBench作为视频理解领域的前沿评测基准，分别由国际研究团队于2024至2025年间提出。VideoMME聚焦开放域长视频分析，平均时长17分钟，涵盖时空推理、动作识别等多维度任务；MVBench则针对短视频片段设计，平均时长16秒，强调动态密集场景的时序推理能力。这两项基准由Moments Lab与Institut Polytechnique de Paris等机构联合开发，旨在解决传统视频问答评估中因帧采样策略不一致导致的性能偏差问题，为小规模视觉语言模型（SVLM）提供标准化评测框架，推动了多模态模型在视频认知任务中的公平比较与性能优化。

当前挑战

视频问答任务面临的核心挑战在于模型需同时处理视觉表征与时序动态的复杂性，而帧采样策略的差异会显著影响模型性能评估。构建过程中，VideoMME需应对长视频内容冗余与关键信息提取的平衡问题，MVBench则需确保短视频中高动态事件的完整捕捉。此外，基准构建需克服不同模型视觉令牌容量差异导致的评估偏差，例如SmolVLM仅支持96帧上限，而Qwen2.5可处理768帧。自适应采样算法（如MaxInfo与CSTA）的集成虽能提升时序任务性能，但面临计算成本倍增与预处理延迟的技术挑战。

常用场景

经典使用场景

在视频理解研究领域，VideoMME和MVBench作为多模态评估基准，主要用于系统评估小型视觉语言模型在视频问答任务中的性能表现。这两个数据集通过精心设计的多项选择题形式，全面考察模型在时空推理、动作识别、物体关系理解等多维度能力。研究者在对比不同模型架构优劣时，通常采用这两个基准进行标准化测试，特别是在控制帧采样策略变量后，能够更准确地揭示模型在视频语义理解方面的真实潜力。

衍生相关工作

该基准催生了系列重要研究工作，包括基于最大信息量准则的MaxInfo帧选择算法和借鉴视频摘要技术的CSTA自适应采样方法。这些衍生工作推动了动态帧采样理论的发展，并启发了后续研究者开发出更多高效的时序信息提取技术。此外，该基准建立的评估范式也被扩展到其他视频理解任务中，形成了以控制变量为核心的多模态模型评估方法论体系。

数据集最近研究