MMVU

Name: MMVU
Creator: Yale NLP Lab
Published: 2025-01-22 12:10:36
License: 暂无描述

Hugging Face2025-01-22 更新2025-01-23 收录

下载链接：

https://huggingface.co/datasets/yale-nlp/MMVU

下载链接

链接失效反馈

官方服务：

资源简介：

MMVU数据集旨在评估专家级别的多学科视频理解能力。该数据集包含3000个专家标注的问答示例，涵盖了1529个专业领域的视频，涉及27个学科和四个主要领域（科学、医疗保健、人文与社会科学、工程）。每个示例都附有专家标注的推理理由和相关领域知识，旨在评估模型的答案正确性和推理质量。数据集的设计反映了现实世界专业领域的复杂性，确保了对领域知识的广度和推理深度的评估。

The MMVU dataset is designed to evaluate expert-level multidisciplinary video understanding capabilities. It contains 3,000 expert-annotated question-answering examples, covering 1,529 videos from professional domains that span 27 disciplines across four major fields: Science, Healthcare, Humanities and Social Sciences, and Engineering. Each example is paired with expert-annotated reasoning rationales and relevant domain-specific knowledge, aiming to assess both the correctness of model-generated answers and the quality of its reasoning processes. The dataset's design mirrors the complexity of real-world professional domains, ensuring evaluations of both the breadth of domain knowledge and the depth of reasoning abilities.

提供机构：

Yale NLP Lab

创建时间：

2025-01-22

搜集汇总

数据集介绍

构建方式

MMVU数据集的构建旨在填补专家级多学科视频理解领域的评估空白。该数据集通过精心挑选1,529个专业领域视频，涵盖科学、医疗、人文社会科学及工程四大关键学科的27个主题。每个视频均配有专家标注的问答示例，共计3,000个，确保数据集在广度和深度上均能反映真实世界的复杂性。此外，每个示例还附有专家标注的推理依据和相关领域知识，使得研究者不仅能评估答案的正确性，还能深入分析推理质量。

特点

MMVU数据集的特点在于其多学科视角和专家级标注。数据集不仅涵盖了广泛的学科领域，还通过专家标注的推理依据和领域知识，提供了深度的推理分析。每个问答示例均包含视频链接、问题类型、元数据（如学科主题、来源教材）、问题、选项（针对选择题）及正确答案。这种结构化的设计使得数据集能够支持复杂的推理任务，并为模型评估提供了丰富的上下文信息。

使用方法

使用MMVU数据集时，研究者需先安装相关依赖并配置环境。数据集支持多种模型推理方式，包括API调用、HuggingFace模型推理及vllm框架下的多图像和视频输入处理。通过运行指定的脚本，研究者可以生成模型对验证集的响应，并将结果保存至指定目录。随后，使用评估脚本对生成结果进行准确性评估，结果将保存至评估结果目录。此外，研究者可通过提交代码至隐藏的测试集进行进一步评估，并参与在线排行榜的竞争。

背景与挑战

背景概述

MMVU数据集由耶鲁大学的研究团队于2025年发布，旨在填补多学科视频理解领域的评估空白。该数据集由Yilun Zhao等人主导开发，专注于评估基础模型在专业领域视频理解中的能力。视频数据不仅捕捉了时间动态和程序性知识，还涉及复杂的交互过程，这些特性在医疗、工程和科学研究等领域尤为重要。MMVU提供了3000个专家标注的问答示例，涵盖了1529个专业领域视频，涉及27个学科，分为科学、医疗、人文与社会科学以及工程四大领域。每个示例均附有专家标注的推理依据和相关领域知识，旨在评估模型的答案正确性和推理质量。

当前挑战

MMVU数据集面临的挑战主要体现在两个方面。首先，专业领域视频理解要求模型不仅具备视觉感知能力，还需结合领域专业知识，如化学反应、医疗程序或工程流程的理解。这种跨领域的知识整合对现有模型提出了极高的要求。其次，数据集的构建过程也面临诸多挑战，包括如何确保视频内容的多样性和代表性，以及如何准确标注复杂的推理过程。此外，数据集的评估标准不仅关注答案的正确性，还强调推理的质量，这对模型的评估提出了更高的要求。这些挑战使得MMVU成为推动多学科视频理解研究的重要工具。

常用场景

经典使用场景

MMVU数据集主要用于评估多学科视频理解能力，特别是在专家级别的任务中。通过提供涵盖科学、医疗、人文社会科学和工程等领域的3000个专家标注的问答示例，该数据集能够全面测试模型在复杂视频内容中的理解和推理能力。经典使用场景包括模型在医疗手术视频中的步骤理解、工程流程中的动态分析以及科学实验视频中的知识整合。

实际应用

在实际应用中，MMVU数据集可广泛应用于医疗、工程和科学研究等领域。例如，在医疗领域，模型可以通过分析手术视频辅助医生进行诊断和培训；在工程领域，模型能够理解复杂的机械操作流程，提升自动化系统的效率；在科学研究中，模型可以解析实验视频中的关键步骤，辅助科研人员进行数据分析。

衍生相关工作

MMVU数据集的发布推动了多模态视频理解领域的研究进展。基于该数据集，研究者开发了多种先进的视频理解模型，如结合视觉和文本信息的跨模态模型、支持复杂推理的链式思维模型等。此外，MMVU还激发了相关领域的研究兴趣，例如视频问答系统、专家级知识推理模型以及多学科交叉应用的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集