MVU-Eval

github2025-11-11 更新2025-11-15 收录

下载链接：

https://github.com/NJU-LINK/MVU-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

MVU-Eval是首个用于评估多模态大语言模型多视频理解能力的综合基准数据集，包含1,824个精心策划的问答对，涵盖4,959个来自不同领域的视频，评估8个核心能力：物体识别、空间理解、计数、比较、知识密集型推理、上下文学习、检索增强生成和时间推理

MVU-Eval is the first comprehensive benchmark dataset for evaluating the multi-video understanding capabilities of multimodal large language models. It contains 1,824 carefully curated question-answer pairs, covering 4,959 videos from diverse domains, and assesses 8 core capabilities: object recognition, spatial understanding, counting, comparison, knowledge-intensive reasoning, in-context learning, retrieval-augmented generation, and temporal reasoning.

创建时间：

2025-10-30

原始信息汇总

MVU-Eval 数据集概述

数据集基本信息

数据集名称：MVU-Eval
核心定位：首个面向多模态大语言模型的多视频理解评估基准
数据规模：1,824个精心构建的问答对，涵盖4,959个视频
数据来源：多样化领域视频数据

核心特性

首创性：首个专注于多视频理解任务的评估基准
任务覆盖：8大核心能力评估维度
质量保证：自动化问答生成 + 双重人工验证 + 泄漏与效用检查
评估广度：涵盖30+开源/闭源多模态大语言模型

能力评估维度

基础感知能力
- 物体识别
- 空间理解
- 计数
- 比较
高阶推理能力
- 知识密集型推理
- 上下文学习
- 检索增强生成
- 时序推理

数据获取

下载地址：https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data
数据内容：
- 所有视频片段（.mp4格式）
- 对应的问答标注文件（.json格式）
存储路径：./MVU-Eval-Data/目录

评估流程

模型部署：支持使用vLLM启动模型服务
推理执行：通过指定参数运行推理脚本
结果分析：自动生成任务级和总体准确率统计

学术引用

bibtex @inproceedings{ peng2025mvueval, title={{MVU}-Eval: Towards Multi-Video Understanding Evaluation for Multimodal {LLM}s}, author={Tianhao Peng and Haochen Wang and Yuanxing Zhang and Zekun Moore Wang and Zili Wang and Ge Zhang and Jian Yang and Shihao Li and Yanghai Wang and Xintao Wang and Houyi Li and Wei Ji and Pengfei Wan and Wenhao Huang and Zhaoxiang Zhang and Jiaheng Liu}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2025}, url={https://openreview.net/forum?id=UZD5CQV6f9} }

搜集汇总

数据集介绍

构建方式

在多媒体智能评估领域，MVU-Eval数据集通过严谨的构建流程确立了其科学价值。该数据集整合了4,959个跨领域视频资源，并基于自动化问答生成技术创建了1,824组质控单元。为确保数据可靠性，研发团队实施了双重人工验证机制，同步进行数据泄露检测与效用验证，最终形成覆盖感知与推理双重维度的评估体系。

特点

作为首个专攻多视频理解能力的基准数据集，MVU-Eval展现出鲜明的体系化特征。其核心价值体现在八项能力维度的系统划分：从基础的对象识别、空间理解到高阶的知识推理、时序分析，构建了完整的评估谱系。数据集通过精心设计的对比任务与情境学习模块，有效揭示了现有模型在跨视频语义关联方面的能力边界。

使用方法

针对多模态大语言模型的评估需求，该数据集提供了标准化的技术实现路径。研究者可通过配置vLLM推理服务器加载指定模型，利用内置脚本实现视频帧采样与特征提取。评估过程支持动态调整帧采样数量与分辨率参数，最终通过自动化分析模块生成任务维度精度报告与可视化对比图表，为模型能力诊断提供量化依据。

背景与挑战

背景概述

随着多模态大语言模型的兴起，人工智能在视觉模态处理方面展现出显著潜力，然而现有评估基准多局限于单视频理解任务。为填补这一空白，南京大学LINK实验室于2025年推出了MVU-Eval基准数据集，这是首个专门针对多视频理解能力设计的综合性评估框架。该数据集涵盖1,824个高质量问答对与4,959段跨领域视频，系统评估物体识别、时空推理、知识密集型推理等八大核心能力，为多模态模型的演进提供了关键评估标准。

当前挑战

多视频理解领域面临的核心挑战在于模型需同时处理跨视频的时空关联与语义协同，尤其在知识推理与上下文学习任务中，要求模型具备跨模态信息融合与长期依赖建模能力。数据集构建过程中，研究团队通过自动化问答生成与双轮人工验证机制应对数据质量管控难题，并采用泄漏检测与效用验证确保评估的公正性，最终在30余个主流模型上验证了基准的鲁棒性与区分度。

常用场景

经典使用场景

在视频理解研究领域，MVU-Eval数据集主要应用于多模态大语言模型的系统性评估。该数据集通过1,824个精心设计的问答对和4,959个跨领域视频，为研究者提供了标准化的测试平台。其核心价值在于突破了传统单视频理解的局限，使模型能够同时处理多个视频片段中的复杂信息，这对于理解视频间的时空关联和语义联系至关重要。

解决学术问题

该数据集有效解决了多视频理解领域缺乏统一评估标准的学术难题。通过涵盖物体识别、空间理解、计数比较等八大核心能力，为衡量模型在多视频场景下的综合表现提供了量化依据。特别在知识密集型推理和时序推理等高级认知任务上，MVU-Eval填补了现有基准测试的空白，推动了多模态理解研究向更复杂的现实场景延伸。

衍生相关工作

基于MVU-Eval的评估框架，已衍生出多项具有影响力的研究工作。包括对30余个开源与闭源多模态大语言模型的系统性评测，揭示了当前模型在多视频理解任务上的性能瓶颈。这些研究成果不仅为模型架构优化提供了方向性指导，还催生了针对特定能力（如检索增强生成、上下文学习）的专项改进方案，推动了整个领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集