MMVU
收藏Hugging Face2025-01-22 更新2025-01-23 收录
下载链接:
https://huggingface.co/datasets/yale-nlp/MMVU
下载链接
链接失效反馈官方服务:
资源简介:
MMVU数据集旨在评估专家级别的多学科视频理解能力。该数据集包含3000个专家标注的问答示例,涵盖了1529个专业领域的视频,涉及27个学科和四个主要领域(科学、医疗保健、人文与社会科学、工程)。每个示例都附有专家标注的推理理由和相关领域知识,旨在评估模型的答案正确性和推理质量。数据集的设计反映了现实世界专业领域的复杂性,确保了对领域知识的广度和推理深度的评估。
The MMVU dataset is designed to evaluate expert-level multidisciplinary video understanding capabilities. It contains 3,000 expert-annotated question-answering examples, covering 1,529 videos from professional domains that span 27 disciplines across four major fields: Science, Healthcare, Humanities and Social Sciences, and Engineering. Each example is paired with expert-annotated reasoning rationales and relevant domain-specific knowledge, aiming to assess both the correctness of model-generated answers and the quality of its reasoning processes. The dataset's design mirrors the complexity of real-world professional domains, ensuring evaluations of both the breadth of domain knowledge and the depth of reasoning abilities.
提供机构:
Yale NLP Lab
创建时间:
2025-01-22
搜集汇总
数据集介绍

构建方式
MMVU数据集的构建旨在填补专家级多学科视频理解领域的评估空白。该数据集通过精心挑选1,529个专业领域视频,涵盖科学、医疗、人文社会科学及工程四大关键学科的27个主题。每个视频均配有专家标注的问答示例,共计3,000个,确保数据集在广度和深度上均能反映真实世界的复杂性。此外,每个示例还附有专家标注的推理依据和相关领域知识,使得研究者不仅能评估答案的正确性,还能深入分析推理质量。
特点
MMVU数据集的特点在于其多学科视角和专家级标注。数据集不仅涵盖了广泛的学科领域,还通过专家标注的推理依据和领域知识,提供了深度的推理分析。每个问答示例均包含视频链接、问题类型、元数据(如学科主题、来源教材)、问题、选项(针对选择题)及正确答案。这种结构化的设计使得数据集能够支持复杂的推理任务,并为模型评估提供了丰富的上下文信息。
使用方法
使用MMVU数据集时,研究者需先安装相关依赖并配置环境。数据集支持多种模型推理方式,包括API调用、HuggingFace模型推理及vllm框架下的多图像和视频输入处理。通过运行指定的脚本,研究者可以生成模型对验证集的响应,并将结果保存至指定目录。随后,使用评估脚本对生成结果进行准确性评估,结果将保存至评估结果目录。此外,研究者可通过提交代码至隐藏的测试集进行进一步评估,并参与在线排行榜的竞争。
背景与挑战
背景概述
MMVU数据集由耶鲁大学的研究团队于2025年发布,旨在填补多学科视频理解领域的评估空白。该数据集由Yilun Zhao等人主导开发,专注于评估基础模型在专业领域视频理解中的能力。视频数据不仅捕捉了时间动态和程序性知识,还涉及复杂的交互过程,这些特性在医疗、工程和科学研究等领域尤为重要。MMVU提供了3000个专家标注的问答示例,涵盖了1529个专业领域视频,涉及27个学科,分为科学、医疗、人文与社会科学以及工程四大领域。每个示例均附有专家标注的推理依据和相关领域知识,旨在评估模型的答案正确性和推理质量。
当前挑战
MMVU数据集面临的挑战主要体现在两个方面。首先,专业领域视频理解要求模型不仅具备视觉感知能力,还需结合领域专业知识,如化学反应、医疗程序或工程流程的理解。这种跨领域的知识整合对现有模型提出了极高的要求。其次,数据集的构建过程也面临诸多挑战,包括如何确保视频内容的多样性和代表性,以及如何准确标注复杂的推理过程。此外,数据集的评估标准不仅关注答案的正确性,还强调推理的质量,这对模型的评估提出了更高的要求。这些挑战使得MMVU成为推动多学科视频理解研究的重要工具。
常用场景
经典使用场景
MMVU数据集主要用于评估多学科视频理解能力,特别是在专家级别的任务中。通过提供涵盖科学、医疗、人文社会科学和工程等领域的3000个专家标注的问答示例,该数据集能够全面测试模型在复杂视频内容中的理解和推理能力。经典使用场景包括模型在医疗手术视频中的步骤理解、工程流程中的动态分析以及科学实验视频中的知识整合。
实际应用
在实际应用中,MMVU数据集可广泛应用于医疗、工程和科学研究等领域。例如,在医疗领域,模型可以通过分析手术视频辅助医生进行诊断和培训;在工程领域,模型能够理解复杂的机械操作流程,提升自动化系统的效率;在科学研究中,模型可以解析实验视频中的关键步骤,辅助科研人员进行数据分析。
衍生相关工作
MMVU数据集的发布推动了多模态视频理解领域的研究进展。基于该数据集,研究者开发了多种先进的视频理解模型,如结合视觉和文本信息的跨模态模型、支持复杂推理的链式思维模型等。此外,MMVU还激发了相关领域的研究兴趣,例如视频问答系统、专家级知识推理模型以及多学科交叉应用的研究。
以上内容由遇见数据集搜集并总结生成



