MMVU
收藏MMVU 数据集概述
数据集简介
MMVU(Measuring Expert-Level Multi-Discipline Video Understanding)是一个用于评估专家级多学科视频理解能力的数据集。该数据集旨在填补现有基础模型在专业领域视频理解方面的评估空白,特别是在时间动态、程序知识和复杂交互等方面的理解能力。
数据集特点
- 数据规模:包含 3,000 个专家标注的问答示例,涵盖 1,529 个专业领域视频。
- 学科覆盖:涉及 27 个学科,分布在 四个主要领域(科学、医疗保健、人文与社会科学、工程)。
- 标注信息:每个示例都包含专家标注的推理理由和相关领域知识,帮助研究人员评估模型的答案正确性和推理质量。
数据集结构
每个数据示例包含以下字段: json { "id": "唯一的问题ID", "video": "视频的下载链接", "youtube_url": "原始YouTube视频链接", "question_type": "问题类型(开放式或选择题)", "metadata": { "subject": "示例所属的学科", "textbook": "示例来源的教科书", "rationale": "答案的推理理由(即将推出)", "knowledge": "相关领域知识的维基百科链接列表(即将推出)" }, "question": "问题内容", "choices": "选择题的选项", "answer": "问题的答案" }
快速开始
-
环境设置: bash pip install -r requirements.txt
-
模型推理:
-
使用API模型生成响应: bash bash model_inference_scripts/run_api_models.sh
-
使用HuggingFace模型生成响应: bash bash model_inference_scripts/run_hf_models.sh
-
使用支持多图像输入的模型生成响应: bash bash model_inference_scripts/run_vllm_image_models.sh
-
使用支持视频输入的模型生成响应: bash bash model_inference_scripts/run_vllm_video_models.sh
-
-
评估: bash python acc_evaluation.py --output_dir <output_dir>
现有模型结果
数据集提供了验证集上的完整结果(包括生成的响应和GPT-4o的准确性评估),可在 HuggingFace Repo 中查看。
排行榜提交
测试集目前未公开,以确保模型评估的公正性。如需在测试集上评估模型,请联系 Yilun Zhao(yilun.zhao@yale.edu)。
引用
如果使用该数据集,请引用以下文献: bibtex @misc{zhao2025mmvu, title={MMVU: Measuring Expert-Level Multi-Discipline Video Understanding}, author={Yilun Zhao and Lujing Xie and Haowei Zhang and Guo Gan and Yitao Long and Zhiyuan Hu and Tongyan Hu and Weiyuan Chen and Chuhan Li and Junyang Song and Zhijian Xu and Chengye Wang and Weifeng Pan and Ziyao Shangguan and Xiangru Tang and Zhenwen Liang and Yixin Liu and Chen Zhao and Arman Cohan}, year={2025}, eprint={2501.12380}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.12380}, }




