MVU-Eval-Data

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data

下载链接

链接失效反馈

官方服务：

资源简介：

MVU-Eval是一个用于评估多模态大型语言模型在多视频理解方面的能力的综合性基准。它包含了1,824个问题-答案对，覆盖了4,959个来自不同领域的视频，旨在评估模型在基本感知和高阶推理任务上的表现。

MVU-Eval is a comprehensive benchmark for evaluating the multi-video understanding capabilities of multimodal large language models. It contains 1,824 question-answer pairs and covers 4,959 videos from diverse domains, aiming to assess model performance on both basic perceptual and high-order reasoning tasks.

创建时间：

2025-05-16

原始信息汇总

MVU-Eval数据集概述

基本信息

许可证: Apache-2.0
标签: Multi-Video-Understanding
数据集名称: MVU-Eval
数据规模: 1K<n<10K
配置文件:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: mvu_eval_config.csv

数据集描述

MVU-Eval是首个用于评估多模态大语言模型（MLLMs）在多视频理解（Multi-Video Understanding）方面能力的综合基准。该数据集主要评估八项核心能力，包含1,824个精心设计的问答对，涵盖4,959个来自不同领域的视频。这些能力既包括基础感知任务，也包括高阶推理任务，并严格与自动驾驶中的多传感器合成和跨角度体育分析等实际应用场景对齐。

数据集内容

核心能力评估:
- 物体识别（OR）
- 空间理解（SU）
- 计数（Counting）
- 比较（Comparison）
- 知识密集型推理（KIR）
- 上下文学习（ICL）
- 检索增强生成（RAG）
- 时序推理（TR）

排行榜

随机选择基准: 26.0（总体得分）
闭源模型表现:
- Gemini 2.5 Pro: 58.4（总体得分）
- Gemini 1.5 Pro: 57.3（总体得分）
- Gemini 2.0 Flash: 56.3（总体得分）
开源模型表现:
- 模型大小 > 40B:
  - Qwen2.5-VL-72B: 57.1（总体得分）
  - InternVL3-78B: 50.6（总体得分）
- 8B < 模型大小 ≤ 40B:
  - Qwen2.5-VL-32B: 55.6（总体得分）
  - InternVL3-38B: 48.4（总体得分）
- 4B < 模型大小 ≤ 8B:
  - Qwen2.5-VL-7B: 51.9（总体得分）
  - VideoChat-Flash-7B: 48.5（总体得分）
- 模型大小 ≤ 4B:
  - Qwen2.5-VL-3B: 46.2（总体得分）
  - InternVL2.5-4B: 37.3（总体得分）

评估资源

VideoLLaMA3-7B评估代码:
- 主代码: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/main_all_QA_video_llama3.py
- 环境依赖: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/requirements.py
- MVU-Eval问答对: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/MVU_Eval_QAs.json

依赖设置与执行

bash wget https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/main_all_MVU_Eval_llama3.py wget https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/requirements.py -O requirements.txt pip install -r requirements.txt apt-get update apt-get install -y ffmpeg

基本执行命令

python main_all_QA_video_llama3.py --input_dir <the dir to downloaded MVU_Eval> --model_name VideoLLaMA/VideoLLaMA3-7B --max_pixel 720 --nframes 32

搜集汇总

数据集介绍

构建方式

在多媒体大语言模型（MLLMs）迅速发展的背景下，MVU-Eval数据集的构建填补了多视频理解评估领域的空白。该数据集通过精心设计的流程，从多样化的应用场景中收集了4,959个视频样本，并针对八项核心能力生成了1,824对问答对。构建过程中特别注重视频来源的多样性，涵盖了自动驾驶多传感器合成和跨视角体育分析等实际应用场景，确保评估任务的全面性和现实意义。

使用方法

该数据集的使用遵循标准的评估流程，研究人员可通过提供的Python脚本快速搭建评估环境。评估代码明确规定了输入目录、模型名称等关键参数，支持灵活配置最大像素和帧数等视频处理参数。数据集以结构化JSON格式存储问答对，便于直接加载和使用。为保障评估的复现性，官方还提供了完整的依赖安装说明和环境配置指南，确保评估过程的一致性和可比性。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的快速发展，人工智能在视觉模态的应用能力得到了显著扩展。然而，现有的评估基准仍局限于单视频理解，忽视了现实场景中对多视频理解的迫切需求，如体育分析和自动驾驶等领域。为填补这一空白，MVU-Eval应运而生，成为首个专注于评估MLLMs在多视频理解方面能力的综合性基准。该数据集由MVU-Eval团队精心构建，涵盖了来自多个领域的4,959个视频和1,824个问题-答案对，旨在评估模型在基础感知任务和高阶推理任务中的八项核心能力。这些能力与自动驾驶系统中的多传感器合成和跨角度体育分析等实际应用紧密相关。通过评估当前领先的开源和闭源模型，MVU-Eval揭示了现有MLLMs在多视频理解方面的显著性能差距和局限性。

当前挑战

MVU-Eval数据集在解决多视频理解领域的核心问题时面临多重挑战。首先，多视频理解任务要求模型能够同时处理多个视频流，并在不同视频之间建立关联，这对模型的时空建模能力提出了极高要求。其次，数据集的构建过程涉及大量视频的收集和标注，如何确保视频的多样性和标注的准确性成为关键挑战。此外，评估任务涵盖了从基础感知到高阶推理的多个层次，如何设计合理的评估指标以全面衡量模型性能也是一大难点。最后，多视频理解任务的实际应用场景复杂多变，如何确保数据集能够覆盖这些场景并具有足够的泛化能力，同样是构建过程中需要克服的挑战。

常用场景

经典使用场景

在多媒体理解领域，MVU-Eval数据集作为首个专注于多视频理解能力的基准测试工具，其经典应用场景主要集中于评估多模态大语言模型（MLLMs）在处理跨视频时序关联、空间感知及复杂推理任务时的表现。通过涵盖体育赛事多角度分析和自动驾驶多传感器融合等典型场景的1,824个问答对，该数据集为模型在真实世界多源视频流中的理解能力提供了标准化度量框架。

解决学术问题

该数据集有效解决了当前多模态研究中单视频评估范式难以捕捉跨视频关联的学术瓶颈，填补了高阶时空推理任务评估体系的空白。通过设计八项核心能力指标（如知识密集型推理和时序推理），系统揭示了现有MLLMs在跨视频语义衔接、多视角信息整合等方面的性能缺陷，为提升模型的多模态协同理解能力提供了关键研究方向。

实际应用

在工业实践中，MVU-Eval支撑了自动驾驶系统的多摄像头环境感知算法优化，其构建的跨视频问答任务可模拟真实路况下的多目标追踪场景。体育科技领域则利用该数据集的时空推理模块，开发出能够自动分析球员战术路径的智能系统，显著提升了多机位视频数据的解析效率。

数据集最近研究