MMVU

github2025-01-22 更新2025-01-23 收录

下载链接：

https://github.com/yale-nlp/MMVU

下载链接

链接失效反馈

官方服务：

资源简介：

MMVU数据集旨在填补专家级多学科视频理解评估的空白，提供了3000个专家注释的问答示例，涵盖1529个专业领域视频，跨越27个学科和四个关键领域（科学、医疗保健、人文社会科学和工程）。每个示例都附有专家注释的推理理由和相关领域知识，使研究人员能够评估答案的正确性和推理质量。

The MMVU dataset aims to fill the gap in expert-level multidisciplinary video understanding evaluation. It features 3,000 expert-annotated question-answer pairs, covering 1,529 professional-domain videos spanning 27 disciplines and four core fields: Science, Healthcare, Humanities and Social Sciences, and Engineering. Each sample is accompanied by expert-annotated reasoning justifications and relevant domain knowledge, enabling researchers to assess the correctness of answers and the quality of reasoning.

创建时间：

2025-01-21

原始信息汇总

MMVU 数据集概述

数据集简介

MMVU（Measuring Expert-Level Multi-Discipline Video Understanding）是一个用于评估专家级多学科视频理解能力的数据集。该数据集旨在填补现有基础模型在专业领域视频理解方面的评估空白，特别是在时间动态、程序知识和复杂交互等方面的理解能力。

数据集特点

数据规模：包含 3,000 个专家标注的问答示例，涵盖 1,529 个专业领域视频。
学科覆盖：涉及 27 个学科，分布在 四个主要领域（科学、医疗保健、人文与社会科学、工程）。
标注信息：每个示例都包含专家标注的推理理由和相关领域知识，帮助研究人员评估模型的答案正确性和推理质量。

数据集结构

每个数据示例包含以下字段： json { "id": "唯一的问题ID", "video": "视频的下载链接", "youtube_url": "原始YouTube视频链接", "question_type": "问题类型（开放式或选择题）", "metadata": { "subject": "示例所属的学科", "textbook": "示例来源的教科书", "rationale": "答案的推理理由（即将推出）", "knowledge": "相关领域知识的维基百科链接列表（即将推出）" }, "question": "问题内容", "choices": "选择题的选项", "answer": "问题的答案" }

快速开始

环境设置： bash pip install -r requirements.txt
模型推理：
- 使用API模型生成响应： bash bash model_inference_scripts/run_api_models.sh
- 使用HuggingFace模型生成响应： bash bash model_inference_scripts/run_hf_models.sh
- 使用支持多图像输入的模型生成响应： bash bash model_inference_scripts/run_vllm_image_models.sh
- 使用支持视频输入的模型生成响应： bash bash model_inference_scripts/run_vllm_video_models.sh
评估： bash python acc_evaluation.py --output_dir <output_dir>

现有模型结果

数据集提供了验证集上的完整结果（包括生成的响应和GPT-4o的准确性评估），可在 HuggingFace Repo 中查看。

排行榜提交

测试集目前未公开，以确保模型评估的公正性。如需在测试集上评估模型，请联系 Yilun Zhao（yilun.zhao@yale.edu）。

引用

如果使用该数据集，请引用以下文献： bibtex @misc{zhao2025mmvu, title={MMVU: Measuring Expert-Level Multi-Discipline Video Understanding}, author={Yilun Zhao and Lujing Xie and Haowei Zhang and Guo Gan and Yitao Long and Zhiyuan Hu and Tongyan Hu and Weiyuan Chen and Chuhan Li and Junyang Song and Zhijian Xu and Chengye Wang and Weifeng Pan and Ziyao Shangguan and Xiangru Tang and Zhenwen Liang and Yixin Liu and Chen Zhao and Arman Cohan}, year={2025}, eprint={2501.12380}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.12380}, }

搜集汇总

数据集介绍

构建方式

MMVU数据集的构建旨在填补专家级多学科视频理解领域的评估空白。该数据集通过精心挑选1,529个专业领域视频，涵盖科学、医疗保健、人文社会科学及工程四大关键学科的27个主题。每个视频均配有专家标注的问答示例，总计3,000个，确保数据集在广度和深度上均能反映真实世界的复杂性。此外，每个示例还附有专家提供的推理依据和相关领域知识，使得研究者不仅能评估答案的正确性，还能深入分析推理质量。

特点

MMVU数据集的特点在于其多学科视角和专家级标注。数据集覆盖了广泛的学科领域，确保了知识的广度；同时，每个问答示例均经过专家精心标注，确保了推理的深度。数据集中的视频不仅捕捉了时间动态和程序性知识，还涉及复杂的交互过程，这对于理解专业领域视频至关重要。此外，数据集提供了详细的元数据，包括问题类型、来源教材、推理依据及相关领域知识链接，为研究者提供了丰富的分析维度。

使用方法

使用MMVU数据集时，研究者首先需安装所需的软件包并配置环境文件。随后，可以通过运行不同的脚本生成模型对验证集的响应，具体方法包括API调用、HuggingFace模型推理以及支持多图像或视频输入的vllm模型推理。生成的响应将保存在指定目录中，研究者可通过运行评估脚本对结果进行准确性评估。此外，MMVU测试集暂未公开，研究者可通过联系数据集作者提交模型代码以获取测试集评估结果，并选择是否更新至排行榜。

背景与挑战

背景概述

MMVU数据集由耶鲁大学的研究团队于2025年发布，旨在填补多学科视频理解领域的评估空白。该数据集由Yilun Zhao等人主导开发，专注于评估基础模型在专业领域视频理解中的能力。视频作为一种动态媒介，不仅捕捉了时间动态和程序性知识，还包含了复杂的交互信息，这些特性在医疗、工程和科学研究等领域尤为重要。MMVU通过提供3000个专家标注的问答样本，覆盖了1529个专业领域视频，涵盖了科学、医疗、人文社会科学和工程等四大领域的27个学科，旨在为研究者提供一个多学科视角的评估工具。该数据集的发布不仅推动了视频理解领域的研究，还为跨学科知识的整合提供了新的可能性。

当前挑战

MMVU数据集在构建和应用过程中面临多重挑战。首先，专业领域视频的理解需要模型具备深厚的领域知识，这对模型的跨学科学习能力提出了极高要求。其次，视频数据的复杂性使得模型不仅需要理解视觉信息，还需捕捉时间动态和程序性知识，这对现有的视频理解模型提出了新的技术挑战。此外，数据集的构建过程中，如何确保专家标注的准确性和一致性也是一个关键问题。尽管MMVU通过提供专家标注的推理依据和相关领域知识来提升评估的深度，但如何有效利用这些信息进行模型训练和评估仍是一个开放性问题。最后，数据集的公开性和测试集的保密性之间的平衡，也对数据集的广泛应用提出了挑战。

常用场景

经典使用场景

MMVU数据集在跨学科视频理解领域具有广泛的应用，尤其是在需要结合领域专业知识的复杂视频分析任务中。该数据集通过提供涵盖科学、医疗保健、人文社会科学及工程等领域的专家级视频问答示例，为研究者提供了一个多学科视角的评估平台。经典的使用场景包括对模型在特定领域视频中的推理能力进行测试，尤其是在需要理解时间动态、程序性知识和复杂交互的情境下。

实际应用

在实际应用中，MMVU数据集能够支持医疗、工程和科学研究等领域的视频分析任务。例如，在医疗领域，该数据集可用于评估模型对手术视频的理解能力，帮助开发智能辅助诊断系统。在工程领域，它可用于分析复杂工作流程的视频，提升自动化系统的决策能力。通过提供多学科的视频数据，MMVU为实际应用中的跨领域视频理解提供了强有力的支持。

衍生相关工作

MMVU数据集的发布推动了多个相关领域的研究进展。基于该数据集，研究者开发了多种跨学科视频理解模型，尤其是在结合领域专业知识的复杂推理任务中取得了显著进展。例如，一些研究利用MMVU数据集开发了基于多模态输入的推理模型，显著提升了模型在医疗和工程视频中的表现。此外，该数据集还激发了更多关于跨学科视频理解的研究，推动了相关领域的技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集