VideoMMMU

github2025-01-22 更新2025-02-10 收录

下载链接：

https://github.com/EvolvingLMMs-Lab/VideoMMMU

下载链接

链接失效反馈

官方服务：

资源简介：

VideoMMMU是一个大规模、多模态、多学科的视频基准数据集，用于评估从教育视频中获取知识的能力。

VideoMMMU is a large-scale, multimodal, multidisciplinary video benchmark dataset designed for evaluating the capability of extracting knowledge from educational videos.

创建时间：

2025-01-22

原始信息汇总

Video-MMMU 数据集概述

数据集简介

Video-MMMU 是首个评估从教育视频中获取知识能力的多模态、多学科视频基准测试，旨在评估大型多模态模型（LMMs）从教育视频中学习新知识并应用于实践的能力。

数据集特点

1. 视频内容

视频数量：300 个讲座风格视频
覆盖学科：6 个专业领域（艺术、商业、科学、医学、人文、工程）
子学科数量：30 个

2. 问题设计

问题数量：900 个问答对（每个视频 3 个问答对）
认知层次：
- 感知：识别关键信息
- 理解：理解基本概念
- 适应：将知识应用于新场景

3. 评估指标

Δknowledge 指标：量化模型从视频中学习后的性能提升 math Delta_{ ext{knowledge}} = frac{ ext{Acc}{ ext{after_video}} - ext{Acc}{ ext{before_video}}}{100% - ext{Acc}_{ ext{before_video}}} imes 100%

评估方法

评估框架：集成于 LMMs-Eval
评估任务：
- 整体评估（video_mmmu）
- 单轨道评估（感知、理解、适应）
- 知识获取实验（question_only 轨道）

数据集使用

安装： bash pip install lmms-eval
评估示例： bash accelerate launch --num_processes=1 --main_process_port 12345 -m lmms_eval --model llava_onevision --model_args pretrained=lmms-lab/llava-onevision-qwen2-7b-ov,conv_template=qwen_1_5,model_name=llava_qwen,max_frames_num=32,torch_dype=bfloat16 --tasks video_mmmu --batch_size 1 --log_samples --log_samples_suffix debug --output_path ./logs/

引用

shell @article{hu2025videommmu, title={Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos}, author={Kairui Hu and Penghao Wu and Fanyi Pu and Wang Xiao and Yuanhan Zhang and Xiang Yue and Bo Li and Ziwei Liu}, booktitle={arXiv preprint arXiv:2501.13826}, year={2025}, url={https://arxiv.org/abs/2501.13826} }

搜集汇总

数据集介绍

构建方式

VideoMMMU数据集的构建采用了跨学科专业视频的大规模整合，通过严格筛选和标注，形成了一个多模态、多学科的视频评估基准。该数据集旨在评价模型从教育视频中进行知识获取的能力，涵盖了不同领域的专业知识视频，为模型提供了丰富的学习材料和学习场景。

使用方法

使用VideoMMMU数据集时，用户需先签署许可协议，以获得使用权限。安装lmms-eval包后，用户可以通过命令行工具对数据集进行评估，支持多种评估任务和模型。数据集的使用方法详细说明了如何加载和运行评估，同时提供了不同模型的性能基准，有助于研究者快速上手和对比分析。

背景与挑战

背景概述

Video-MMMU数据集，创建于2025年，由LMMs-Lab团队推出，是一个大规模的多模态、跨学科视频基准数据集。该数据集旨在评估从教育视频中获取知识的能力。Video-MMMU数据集的构建，汇聚了多个学科的专业视频资源，为多模态知识获取的研究提供了重要的实验平台。该数据集的发布，对教育视频领域的知识获取研究产生了显著影响，推动了相关技术的发展和应用。

当前挑战

Video-MMMU数据集在构建过程中面临的挑战主要包括：1) 多学科视频资源的整合与标注，确保视频内容的专业性和多样性；2) 多模态信息的有效融合与处理，以适应不同模态间的信息互补；3) 知识获取能力的精确评估，需要设计合理的评价指标和测试协议；4) 数据集的版权和使用许可问题，确保数据集的合法合规使用。

常用场景

经典使用场景

Video-MMMU数据集作为评估多学科专业视频知识获取能力的基准，其经典使用场景主要在于对教育视频中的知识获取能力进行量化评估，通过对多模态、多学科的视频内容进行分析，从而评价模型在理解、感知及适应不同学科知识上的表现。

解决学术问题

该数据集解决了多学科知识融合与评估的难题，为学术研究提供了关于视频内容知识获取的量化标准，有助于促进多模态学习模型在视频理解、知识提取和教育领域的应用发展。

实际应用

在实际应用中，Video-MMMU数据集可用于教育平台的知识评估系统，辅助教师评估学生的学习效果，或用于开发智能教育助手，提供个性化的学习建议。

数据集最近研究