HuggingFaceM4/MMMU
收藏Hugging Face2024-02-20 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/MMMU
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: question
dtype: string
- name: options
dtype: string
- name: explanation
dtype: string
- name: image_1
dtype: image
- name: image_2
dtype: image
- name: image_3
dtype: image
- name: image_4
dtype: image
- name: image_5
dtype: image
- name: image_6
dtype: image
- name: image_7
dtype: image
- name: img_type
dtype: string
- name: answer
dtype: string
- name: topic_difficulty
dtype: string
- name: question_type
dtype: string
- name: subfield
dtype: string
splits:
- name: dev
num_bytes: 57719041.0
num_examples: 150
- name: validation
num_bytes: 347519912.0
num_examples: 900
- name: test
num_bytes: 3271046222.0
num_examples: 10500
download_size: 3377778136
dataset_size: 3676285175.0
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
# Dataset Card for "MMMU"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HuggingFaceM4
原始信息汇总
数据集概述
数据特征
- id: 字符串类型
- question: 字符串类型
- options: 字符串类型
- explanation: 字符串类型
- image_1 至 image_7: 图像类型
- img_type: 字符串类型
- answer: 字符串类型
- topic_difficulty: 字符串类型
- question_type: 字符串类型
- subfield: 字符串类型
数据分割
- dev: 包含150个样本,大小为57719041字节
- validation: 包含900个样本,大小为347519912字节
- test: 包含10500个样本,大小为3271046222字节
数据集大小
- 下载大小: 3377778136字节
- 数据集大小: 3676285175字节
配置
- default:
- dev: 路径为
data/dev-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- dev: 路径为
搜集汇总
数据集介绍

构建方式
MMMU数据集由HuggingFaceM4团队精心构建,旨在评估多模态大语言模型在跨学科领域的综合能力。该数据集通过收集涵盖艺术、工程、医学等30个学科的10500个测试样本、900个验证样本和150个开发样本,每个样本包含一个问题、最多七张关联图像、多个选项及正确答案。数据以JSON格式组织,字段设计包括问题文本、选项列表、图像路径、答案、解释、主题难度、问题类型及子领域标签,确保结构清晰且便于解析。
特点
MMMU数据集的核心特色在于其多学科覆盖与多模态融合的深度。每个问题可关联多达七张图像,模拟真实场景中复杂视觉信息的整合需求。数据集包含开发、验证和测试三个分割,其中测试集规模最大,支持大规模模型评估。此外,字段中嵌入了解释、主题难度和问题类型等元数据,为分析模型在不同学科和难度层级上的表现提供了细粒度视角,凸显了其在多模态推理基准中的独特价值。
使用方法
使用MMMU数据集时,研究人员可直接通过HuggingFace Datasets库加载,指定分割(如'test')和配置(默认'default')。数据以字典形式返回,包含'id'、'question'、'options'、'image_1'至'image_7'等字段。建议将图像字段解码为PIL Image对象,并与文本问题拼接作为模型输入。评估时,需将模型输出与'answer'字段比对,并利用'subfield'和'topic_difficulty'进行分层分析,以全面衡量模型的多模态理解能力。
背景与挑战
背景概述
MMMU数据集由Hugging Face团队于2023年推出,旨在推动多模态大语言模型在复杂视觉问答任务上的发展。该数据集聚焦于大学级多学科知识,涵盖艺术、工程、医学等30余个领域,包含超过1万道需结合图像与文本推理的选择题。其核心研究问题在于评估模型对专业图表、示意图及真实场景图像的深层理解能力,而非简单的视觉识别。作为多模态基准测试的重要补充,MMMU填补了现有数据集在学术深度与跨学科广度上的空白,为模型在高等教育场景下的应用提供了关键测试平台,显著促进了视觉语言模型的诊断与改进。
当前挑战
MMMU所面临的挑战首先体现在领域问题层面:现有模型在处理需要专业领域知识的多模态推理时表现欠佳,例如医学影像分析或工程图纸解读,要求模型不仅识别视觉元素,还需调用隐性学科知识。其次,构建过程中需克服数据采集与标注的困难——从大学教材、考试中筛选高质量图像-问题对,确保跨学科覆盖均衡,并避免图像模糊或文本歧义。此外,题目难度分级(如topic_difficulty字段)的标准化、多图像关联推理(最多7张图像)的标注一致性,以及防止模型依赖文本捷径而非真正理解视觉内容,均是构建中的核心挑战。
常用场景
经典使用场景
MMMU(Massive Multi-discipline Multimodal Understanding)数据集作为大规模多学科多模态理解基准,其经典使用场景在于评估和推动视觉语言模型在跨学科知识融合上的能力。该数据集精心设计了涵盖艺术、工程、医学等30余个学科的多项选择题,每道题目均配以多张图像,旨在检验模型从视觉和文本信息中协同提取、推理并整合领域知识的能力。研究者通常利用其验证集与测试集对模型进行零样本或微调评估,从而衡量模型在复杂多模态推理任务中的表现,尤其是在需要专业领域背景知识的问题上,如解剖图像分析或电路图解读,这为多模态模型在学术基准上的公平比较提供了标准化平台。
实际应用
在实际应用中,MMMU数据集所评估的能力直接映射至多个高价值行业场景,例如智能教育辅导系统可利用多模态理解模型解析包含图表与公式的试题,提供精准的解题指导;在医学影像辅助诊断中,模型需结合X光片与临床描述进行多图像联合推理,辅助医生识别病变;工业质检领域则要求模型从多角度产品图像中综合判断缺陷。基于MMMU训练的模型能够更好地适应这些需要跨模态知识整合的复杂任务,提升自动化决策的可靠性与鲁棒性。此外,该数据集也为多模态搜索引擎与知识问答系统的研发提供了性能验证基准,推动技术从实验室走向真实应用环境。
衍生相关工作
MMMU数据集的诞生催生了一系列经典衍生工作,包括对多模态大模型(如LLaVA、Qwen-VL、GPT-4V)进行系统性评估的研究,这些工作通过MMMU的学科细分维度揭示了不同模型在医学、艺术等领域的专长与缺陷。此外,研究者基于MMMU开发了专门针对多图像推理的增强训练方法,例如通过构建图像间关系图网络提升模型的空间理解能力。还有工作尝试将MMMU的题目转化为生成式任务,探索模型在开放域解释生成上的表现。这些衍生研究不仅深化了对多模态模型能力边界的认知,还推动了诸如自适应课程学习、专家知识注入等新训练范式的出现,形成了围绕MMMU的多模态理解研究生态。
以上内容由遇见数据集搜集并总结生成



