VideoMMMU
收藏Video-MMMU 数据集概述
数据集简介
Video-MMMU 是首个评估从教育视频中获取知识能力的多模态、多学科视频基准测试,旨在评估大型多模态模型(LMMs)从教育视频中学习新知识并应用于实践的能力。
数据集特点
1. 视频内容
- 视频数量:300 个讲座风格视频
- 覆盖学科:6 个专业领域(艺术、商业、科学、医学、人文、工程)
- 子学科数量:30 个
2. 问题设计
- 问题数量:900 个问答对(每个视频 3 个问答对)
- 认知层次:
- 感知:识别关键信息
- 理解:理解基本概念
- 适应:将知识应用于新场景
3. 评估指标
- Δknowledge 指标:量化模型从视频中学习后的性能提升 math Delta_{ ext{knowledge}} = frac{ ext{Acc}{ ext{after_video}} - ext{Acc}{ ext{before_video}}}{100% - ext{Acc}_{ ext{before_video}}} imes 100%
评估方法
- 评估框架:集成于 LMMs-Eval
- 评估任务:
- 整体评估(video_mmmu)
- 单轨道评估(感知、理解、适应)
- 知识获取实验(question_only 轨道)
数据集使用
-
安装: bash pip install lmms-eval
-
评估示例: bash accelerate launch --num_processes=1 --main_process_port 12345 -m lmms_eval --model llava_onevision --model_args pretrained=lmms-lab/llava-onevision-qwen2-7b-ov,conv_template=qwen_1_5,model_name=llava_qwen,max_frames_num=32,torch_dype=bfloat16 --tasks video_mmmu --batch_size 1 --log_samples --log_samples_suffix debug --output_path ./logs/
引用
shell @article{hu2025videommmu, title={Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos}, author={Kairui Hu and Penghao Wu and Fanyi Pu and Wang Xiao and Yuanhan Zhang and Xiang Yue and Bo Li and Ziwei Liu}, booktitle={arXiv preprint arXiv:2501.13826}, year={2025}, url={https://arxiv.org/abs/2501.13826} }




