five

MVU-Eval-Data

收藏
Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data
下载链接
链接失效反馈
官方服务:
资源简介:
MVU-Eval是一个用于评估多模态大型语言模型在多视频理解方面的能力的综合性基准。它包含了1,824个问题-答案对,覆盖了4,959个来自不同领域的视频,旨在评估模型在基本感知和高阶推理任务上的表现。

MVU-Eval is a comprehensive benchmark for evaluating the multi-video understanding capabilities of multimodal large language models. It contains 1,824 question-answer pairs and covers 4,959 videos from diverse domains, aiming to assess model performance on both basic perceptual and high-order reasoning tasks.
创建时间:
2025-05-16
原始信息汇总

MVU-Eval数据集概述

基本信息

  • 许可证: Apache-2.0
  • 标签: Multi-Video-Understanding
  • 数据集名称: MVU-Eval
  • 数据规模: 1K<n<10K
  • 配置文件:
    • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: mvu_eval_config.csv

数据集描述

MVU-Eval是首个用于评估多模态大语言模型(MLLMs)在多视频理解(Multi-Video Understanding)方面能力的综合基准。该数据集主要评估八项核心能力,包含1,824个精心设计的问答对,涵盖4,959个来自不同领域的视频。这些能力既包括基础感知任务,也包括高阶推理任务,并严格与自动驾驶中的多传感器合成和跨角度体育分析等实际应用场景对齐。

数据集内容

  • 核心能力评估:
    • 物体识别(OR)
    • 空间理解(SU)
    • 计数(Counting)
    • 比较(Comparison)
    • 知识密集型推理(KIR)
    • 上下文学习(ICL)
    • 检索增强生成(RAG)
    • 时序推理(TR)

排行榜

  • 随机选择基准: 26.0(总体得分)
  • 闭源模型表现:
    • Gemini 2.5 Pro: 58.4(总体得分)
    • Gemini 1.5 Pro: 57.3(总体得分)
    • Gemini 2.0 Flash: 56.3(总体得分)
  • 开源模型表现:
    • 模型大小 > 40B:
      • Qwen2.5-VL-72B: 57.1(总体得分)
      • InternVL3-78B: 50.6(总体得分)
    • 8B < 模型大小 ≤ 40B:
      • Qwen2.5-VL-32B: 55.6(总体得分)
      • InternVL3-38B: 48.4(总体得分)
    • 4B < 模型大小 ≤ 8B:
      • Qwen2.5-VL-7B: 51.9(总体得分)
      • VideoChat-Flash-7B: 48.5(总体得分)
    • 模型大小 ≤ 4B:
      • Qwen2.5-VL-3B: 46.2(总体得分)
      • InternVL2.5-4B: 37.3(总体得分)

评估资源

  • VideoLLaMA3-7B评估代码:
    • 主代码: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/main_all_QA_video_llama3.py
    • 环境依赖: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/requirements.py
    • MVU-Eval问答对: https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/MVU_Eval_QAs.json

依赖设置与执行

bash wget https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/main_all_MVU_Eval_llama3.py wget https://huggingface.co/datasets/MVU-Eval-Team/MVU-Eval-Data/resolve/main/requirements.py -O requirements.txt pip install -r requirements.txt apt-get update apt-get install -y ffmpeg

基本执行命令

python main_all_QA_video_llama3.py --input_dir <the dir to downloaded MVU_Eval> --model_name VideoLLaMA/VideoLLaMA3-7B --max_pixel 720 --nframes 32

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体大语言模型(MLLMs)迅速发展的背景下,MVU-Eval数据集的构建填补了多视频理解评估领域的空白。该数据集通过精心设计的流程,从多样化的应用场景中收集了4,959个视频样本,并针对八项核心能力生成了1,824对问答对。构建过程中特别注重视频来源的多样性,涵盖了自动驾驶多传感器合成和跨视角体育分析等实际应用场景,确保评估任务的全面性和现实意义。
使用方法
该数据集的使用遵循标准的评估流程,研究人员可通过提供的Python脚本快速搭建评估环境。评估代码明确规定了输入目录、模型名称等关键参数,支持灵活配置最大像素和帧数等视频处理参数。数据集以结构化JSON格式存储问答对,便于直接加载和使用。为保障评估的复现性,官方还提供了完整的依赖安装说明和环境配置指南,确保评估过程的一致性和可比性。
背景与挑战
背景概述
随着多模态大语言模型(MLLMs)的快速发展,人工智能在视觉模态的应用能力得到了显著扩展。然而,现有的评估基准仍局限于单视频理解,忽视了现实场景中对多视频理解的迫切需求,如体育分析和自动驾驶等领域。为填补这一空白,MVU-Eval应运而生,成为首个专注于评估MLLMs在多视频理解方面能力的综合性基准。该数据集由MVU-Eval团队精心构建,涵盖了来自多个领域的4,959个视频和1,824个问题-答案对,旨在评估模型在基础感知任务和高阶推理任务中的八项核心能力。这些能力与自动驾驶系统中的多传感器合成和跨角度体育分析等实际应用紧密相关。通过评估当前领先的开源和闭源模型,MVU-Eval揭示了现有MLLMs在多视频理解方面的显著性能差距和局限性。
当前挑战
MVU-Eval数据集在解决多视频理解领域的核心问题时面临多重挑战。首先,多视频理解任务要求模型能够同时处理多个视频流,并在不同视频之间建立关联,这对模型的时空建模能力提出了极高要求。其次,数据集的构建过程涉及大量视频的收集和标注,如何确保视频的多样性和标注的准确性成为关键挑战。此外,评估任务涵盖了从基础感知到高阶推理的多个层次,如何设计合理的评估指标以全面衡量模型性能也是一大难点。最后,多视频理解任务的实际应用场景复杂多变,如何确保数据集能够覆盖这些场景并具有足够的泛化能力,同样是构建过程中需要克服的挑战。
常用场景
经典使用场景
在多媒体理解领域,MVU-Eval数据集作为首个专注于多视频理解能力的基准测试工具,其经典应用场景主要集中于评估多模态大语言模型(MLLMs)在处理跨视频时序关联、空间感知及复杂推理任务时的表现。通过涵盖体育赛事多角度分析和自动驾驶多传感器融合等典型场景的1,824个问答对,该数据集为模型在真实世界多源视频流中的理解能力提供了标准化度量框架。
解决学术问题
该数据集有效解决了当前多模态研究中单视频评估范式难以捕捉跨视频关联的学术瓶颈,填补了高阶时空推理任务评估体系的空白。通过设计八项核心能力指标(如知识密集型推理和时序推理),系统揭示了现有MLLMs在跨视频语义衔接、多视角信息整合等方面的性能缺陷,为提升模型的多模态协同理解能力提供了关键研究方向。
实际应用
在工业实践中,MVU-Eval支撑了自动驾驶系统的多摄像头环境感知算法优化,其构建的跨视频问答任务可模拟真实路况下的多目标追踪场景。体育科技领域则利用该数据集的时空推理模块,开发出能够自动分析球员战术路径的智能系统,显著提升了多机位视频数据的解析效率。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在视觉模态领域的快速发展,多视频理解能力成为当前研究的热点。MVU-Eval作为首个针对多视频理解的综合评估基准,填补了现有评估体系在真实场景应用中的空白,如自动驾驶中的多传感器融合和体育分析中的多角度推理。该数据集通过1,824个精心设计的问答对和4,959个跨领域视频,全面评估了模型在物体识别、空间理解、知识密集型推理等八大核心能力上的表现。近期研究表明,尽管开源和闭源模型在多视频理解任务上展现出一定潜力,但性能差距显著,尤其在时序推理和检索增强生成等复杂任务上仍有较大提升空间。这一基准的推出为未来多模态模型的研究提供了重要参考,推动了跨视频语义关联和动态场景理解的技术突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作