MMMU_Pro

Hugging Face2024-08-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MMMU/MMMU_Pro

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：'standard'配置适用于涉及文本和图像的问题解答，包含id、question、options、explanation等字段，以及多个图像字段（image_1到image_7）；'vision'配置适用于图像识别任务，主要关注图像数据，包含id、image、answer和subject字段。两个配置均包含'test'分割，提供了数据量和示例数量。

This dataset includes two configurations: The "standard" configuration is designed for question answering tasks involving both text and images, and contains fields such as id, question, options, explanation, as well as multiple image fields ranging from image_1 to image_7; The "vision" configuration is tailored for image recognition tasks, which focuses primarily on image data, and includes fields including id, image, answer and subject. Both configurations have a "test" split, and provide the data volume and the number of examples.

创建时间：

2024-08-27

原始信息汇总

MMMU_Pro 数据集概述

数据集配置

配置名称：standard

特征

id: 字符串
question: 字符串
options: 字符串
explanation: 字符串
image_1: 图像
image_2: 图像
image_3: 图像
image_4: 图像
image_5: 图像
image_6: 图像
image_7: 图像
img_type: 字符串
answer: 字符串
topic_difficulty: 字符串
subject: 字符串

分割

test:
- 字节数: 691407031.48
- 样本数: 1730

下载和数据大小

下载大小: 677978882
数据集大小: 691407031.48

配置名称：vision

特征

id: 字符串
image: 图像
answer: 字符串
subject: 字符串

分割

test:
- 字节数: 1718855331.16
- 样本数: 1730

下载和数据大小

下载大小: 1629612769
数据集大小: 1718855331.16

数据文件路径

配置名称：standard

test: standard/test-*

配置名称：vision

test: vision/test-*

搜集汇总

数据集介绍

构建方式

MMMU-Pro数据集的构建过程体现了对多模态理解的深度探索。通过筛选出仅依赖文本即可回答的问题，并利用开源大语言模型进行初步测试，确保数据集中的问题必须结合视觉和文本信息才能解答。此外，候选选项从四个增加到十个，显著提升了问题的复杂性。视觉输入设置进一步增强了数据集的挑战性，问题嵌入在截图或照片中，要求模型在没有单独文本输入的情况下整合视觉和文本信息。

特点

MMMU-Pro数据集以其多模态理解和复杂性著称。数据集中的问题不仅要求模型处理文本信息，还需结合视觉内容进行综合分析，模拟了现实世界中用户与嵌入内容的交互场景。视觉输入设置和增加的候选选项使得数据集更具挑战性，能够有效评估模型在多模态环境下的真实理解能力。此外，数据集涵盖了多个学科领域，如化学、生物、音乐、艺术等，确保了其广泛的应用场景。

使用方法

MMMU-Pro数据集的使用方法简洁明了。用户可以通过Hugging Face的`datasets`库加载数据集，分别加载标准版和视觉版。标准版包含10个候选选项的问题，视觉版则要求模型从嵌入在图像中的信息中提取答案。加载后，用户可以直接访问数据集中的问题、选项、图像和答案等字段，进行模型训练或评估。这种灵活的使用方式使得MMMU-Pro成为评估多模态模型性能的理想工具。

背景与挑战

背景概述

MMMU-Pro数据集是2024年由Xiang Yue等人提出的一个增强型多模态理解基准，旨在评估先进AI模型在多模态环境下的真实理解能力。该数据集基于原始的MMMU基准，通过引入视觉输入设置和增加候选选项数量，显著提升了任务的复杂性和现实性。MMMU-Pro涵盖了化学、生物、音乐、艺术、医学、数学、科学和工程等多个学科，反映了真实世界中用户与嵌入内容的交互场景。该数据集的发布为多模态AI模型的评估提供了更为严格的测试平台，推动了相关领域的研究进展。

当前挑战

MMMU-Pro数据集在构建和应用过程中面临多重挑战。首先，数据集旨在解决多模态理解问题，要求模型能够同时处理视觉和文本信息，这对模型的综合能力提出了更高要求。其次，数据集的构建过程中，研究人员通过过滤仅依赖文本即可回答的问题，并增加候选选项数量至10个，显著提升了任务的难度。此外，视觉输入设置的引入进一步增加了模型的复杂性，要求模型在没有单独文本输入的情况下，仅通过图像中的信息进行推理。这些挑战不仅考验了模型的综合理解能力，也为未来多模态AI模型的发展提供了新的研究方向。

常用场景

经典使用场景

MMMU_Pro数据集广泛应用于多模态人工智能模型的评估与训练，尤其是在视觉与文本信息融合的场景中。该数据集通过提供包含图像和文本的复杂问题，要求模型不仅理解文本内容，还需从图像中提取关键信息，从而模拟真实世界中的多模态交互任务。这种设计使得MMMU_Pro成为评估模型跨模态理解能力的理想工具。

解决学术问题

MMMU_Pro数据集解决了多模态人工智能领域中的关键问题，即如何有效评估模型在视觉与文本信息融合任务中的表现。通过增加选项数量和引入仅视觉输入的任务，该数据集显著提升了评估的难度，避免了模型依赖猜测或捷径。这一改进为研究者提供了更严格的基准，推动了多模态模型在复杂场景下的性能提升。

衍生相关工作

MMMU_Pro数据集的发布催生了一系列相关研究工作，特别是在多模态模型优化和评估方法方面。例如，基于该数据集的研究提出了新的模型架构，如InternVL2和LLaVA系列，这些模型在视觉与文本融合任务中表现出色。此外，该数据集还推动了多模态评估标准的改进，为后续研究提供了重要的参考依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集