MMMU

arXiv2023-12-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.16502v3

下载链接

链接失效反馈

官方服务：

资源简介：

MMMU是一个大规模的多学科多模态理解和推理基准，用于评估多模态模型在需要大学水平学科知识和深思熟虑推理的大量多学科任务上的表现。该数据集包含从大学考试、测验和教科书中精心收集的11.5K个多模态问题，涵盖艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术和工程六个核心学科。这些问题跨越30个学科和183个子领域，包含30种高度异质的图像类型，如图表、图解、地图、表格、音乐表和化学结构。

MMMU is a large-scale multidisciplinary multimodal understanding and reasoning benchmark for evaluating the performance of multimodal models on a wide range of multidisciplinary tasks that require college-level disciplinary knowledge and deliberate reasoning. This dataset contains 11.5K multimodal questions carefully collected from college-level examinations, quizzes and textbooks, covering six core disciplines: art and design, business, science, health and medicine, humanities and social sciences, as well as technology and engineering. These questions span 30 disciplines and 183 sub-fields, and include 30 highly heterogeneous image types such as charts, diagrams, maps, tables, musical scores and chemical structures.

创建时间：

2023-11-28

搜集汇总

数据集介绍

构建方式

在构建MMMU数据集时，研究团队采用了一种系统化的多阶段数据收集与质量控制流程。首先，基于视觉输入在学科中的常见性原则，从六个核心学科中筛选出30个大学专业科目。随后，招募了超过50名相关专业的大学生作为标注员，从权威的大学教材、在线资源和考试题目中手动收集了约13,000道多模态问题。为确保数据的独特性和避免潜在的训练数据污染，标注员被特别指示选择那些答案不易直接获取的题目。在数据清洗阶段，通过词汇重叠和来源URL相似性检测来识别并人工复核重复问题，同时由合著者进行格式校对与难度分级。最终，约10%被归类为过于简单的题目被排除，形成了包含11,500道高质量问题的最终数据集，并划分为开发集、验证集和测试集。

使用方法

MMMU数据集主要用于零样本评估大型多模态模型在复杂、专业的多学科任务上的理解与推理能力。评估时，模型接收包含交错文本和图像的问题作为输入，并生成答案。对于选择题，通过构建稳健的正则表达式从模型的长响应中提取关键短语进行匹配；对于开放性问题，则直接评估其生成答案的准确性。数据集的官方划分包括一个用于少量示例学习的开发集、一个用于超参数选择的验证集以及一个包含10,500个问题的主测试集。研究者可通过该基准系统性地衡量模型在感知、知识调用和逻辑推理三个维度的表现，尤其关注其在面对不同图像类型和学科难度时的泛化能力与局限性，从而推动下一代多模态基础模型的开发。

背景与挑战

背景概述

MMMU（大规模多学科多模态理解与推理基准）由IN.AI Research、滑铁卢大学、俄亥俄州立大学等机构的研究团队于2023年联合创建，旨在评估专家级通用人工智能在跨学科多模态任务中的高级认知能力。该数据集聚焦于解决当前多模态模型在深度学科知识与复杂推理方面的局限，通过涵盖艺术设计、商业、科学、医学、人文社科及工程技术六大核心领域的11,500道大学级多模态问题，系统检验模型在异构图像理解、文本-图像交错分析与专业级感知推理等方面的综合性能。其构建以模拟人类专家在专业场景下的多模态问题解决能力为核心，推动了多模态模型向深层次学科理解与逻辑推理的方向演进，对促进专家级通用人工智能的发展具有里程碑意义。

当前挑战

MMMU面临的挑战主要体现在两大维度：其一，在领域问题解决层面，数据集要求模型应对高度异构的图像类型（如图表、化学结构、乐谱、医学影像等），并完成跨学科的专业级知识推理，这对现有模型的感知泛化与深度逻辑分析能力构成了严峻考验；其二，在数据构建过程中，研究团队需克服多学科知识整合的复杂性，确保11,500道问题的学术严谨性与图像-文本对齐的精确性，同时需规避数据污染风险并维持版权合规性，这些因素共同增加了数据集高质量构建的难度。

常用场景

经典使用场景

在评估专家级通用人工智能（Expert AGI）的多模态理解与推理能力时，MMMU数据集作为一项大规模、多学科、多模态的基准测试，被广泛应用于衡量大型多模态模型（LMMs）在跨学科复杂任务中的表现。该数据集通过涵盖艺术与设计、商业、科学、健康与医学、人文社会科学以及技术与工程六大核心学科，汇集了来自大学考试、测验和教材的11.5K个多模态问题，要求模型不仅能够解析文本与图像的交错输入，还需调用深层次学科知识进行专家级感知与逻辑推理。其经典使用场景包括对GPT-4V、Gemini等先进模型在学科深度与广度上的系统性评测，揭示模型在复杂视觉数据理解和专业领域知识应用方面的局限。

解决学术问题

MMMU数据集主要解决了多模态人工智能研究中专家级知识融合与深度推理能力评估的缺失问题。传统多模态基准如VQA、ScienceQA等多侧重于常识或日常知识，缺乏对专业领域知识的高阶要求。MMMU通过引入大学水平的学科问题，涵盖30种高度异质的图像类型（如化学结构、乐谱、医学影像等），迫使模型在感知基础上进行知识检索与逻辑推演。该数据集不仅量化了当前先进模型在跨学科任务上的准确率差距（例如GPT-4V仅达56%），还通过错误分析揭示了模型在感知、知识缺失和推理缺陷等方面的瓶颈，为提升模型在专业场景下的认知深度提供了明确的研究方向。

实际应用

在实际应用中，MMMU数据集为开发面向专业领域的多模态智能系统提供了关键的评估工具与优化指引。在教育科技领域，该数据集可用于构建智能辅导系统，辅助学生在艺术、医学、工程等学科中进行可视化学习与问题解答；在专业服务行业，如医疗诊断辅助、工程设计分析、商业决策支持等场景，基于MMMU优化的模型能够更准确地解析图表、医学影像、技术蓝图等专业视觉材料，提升自动化处理的精度与可靠性。此外，该数据集也为企业级AI产品的性能基准测试提供了标准化框架，推动多模态技术向专家级应用场景的落地与迭代。

数据集最近研究