0601p/MMMU_img_type

Name: 0601p/MMMU_img_type
Creator: 0601p
Published: 2024-05-23 14:23:28
License: 暂无描述

Hugging Face2024-05-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/0601p/MMMU_img_type

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，每个子数据集专注于不同的主题，如3D渲染、广告、医学图像等。每个子数据集都提供了详细的特征描述，包括图像和文本数据，以及数据集的分割信息。这些数据集适用于多种研究和应用，如图像识别、自然语言处理等。

提供机构：

0601p

原始信息汇总

数据集概述

1. 3D Renderings

配置名称: 3D Renderings
特征:
- id: 字符串
- question: 字符串
- options: 字符串
- explanation: 字符串
- image_1 到 image_7: 图像
- img_type: 字符串
- answer: 字符串
- topic_difficulty: 字符串
- question_type: 字符串
- subfield: 字符串
- subset: 字符串
分割:
- test: 21个样本, 4466585字节
下载大小: 4473038字节
数据集大小: 4466585.0字节

2. Advertisements

配置名称: Advertisements
特征: 同上
分割:
- validation: 2个样本, 3407657字节
- test: 10个样本, 6312078字节
下载大小: 9720162字节
数据集大小: 9719735.0字节

3. Body Scans MRI, CT scans, and X-rays

配置名称: Body Scans MRI, CT scans, and X-rays
特征: 同上
分割:
- test: 198个样本, 60918954字节
- validation: 17个样本, 4015755字节
- dev: 1个样本, 47701字节
下载大小: 60192828字节
数据集大小: 64982410.0字节

4. Chemical Structures

配置名称: Chemical Structures
特征: 同上
分割:
- validation: 31个样本, 1015062字节
- test: 573个样本, 27816783字节
- dev: 5个样本, 193659字节
下载大小: 27430848字节
数据集大小: 29025504.0字节

5. Comics and Cartoons

配置名称: Comics and Cartoons
特征: 同上
分割:
- test: 131个样本, 64346837字节
- validation: 24个样本, 8392729字节
- dev: 2个样本, 686983字节
下载大小: 69220151字节
数据集大小: 73426549.0字节

6. DNA Sequences

配置名称: DNA Sequences
特征: 同上
分割:
- test: 20个样本, 3133533字节
- validation: 1个样本, 14557字节
下载大小: 2612993字节
数据集大小: 3148090.0字节

7. Diagrams

配置名称: Diagrams
特征: 同上
分割:
- validation: 246个样本, 23274784字节
- test: 3184个样本, 246452886字节
- dev: 36个样本, 3926079字节
下载大小: 253913890字节
数据集大小: 273653749.0字节

8. Geometric Shapes

配置名称: Geometric Shapes
特征: 同上
分割:
- validation: 20个样本, 1338457字节
- test: 336个样本, 20151880字节
- dev: 2个样本, 83500字节
下载大小: 20947240字节
数据集大小: 21573837.0字节

9. Historical Timelines

配置名称: Historical Timelines
特征: 同上
分割:
- test: 30个样本, 6349680字节
- dev: 1个样本, 190854字节
- validation: 1个样本, 160074字节
下载大小: 5958787字节
数据集大小: 6700608.0字节

10. Icons and Symbols

配置名称: Icons and Symbols
特征: 同上
分割:
- test: 42个样本, 11485123字节
- validation: 2个样本, 608484字节
- dev: 2个样本, 1571777字节
下载大小: 13698626字节
数据集大小: 13665384.0字节

11. Landscapes

配置名称: Landscapes
特征: 同上
分割:
- test: 16个样本, 16490990字节
- dev: 3个样本, 887489字节
- validation: 2个样本, 862137字节
下载大小: 18271343字节
数据集大小: 18240616.0字节

12. Logos and Branding

配置名称: Logos and Branding
特征: 同上
分割:
- validation: 3个样本, 278757字节
- test: 14个样本, 4568224字节
下载大小: 4864604字节
数据集大小: 4846981.0字节

13. Maps

配置名称: Maps
特征: 同上
分割:
- test: 170个样本, 83283890字节
- validation: 13个样本, 5737072字节
- dev: 1个样本, 631026字节
下载大小: 81001818字节
数据集大小: 89651988.0字节

14. Mathematical Notations

配置名称: Mathematical Notations
特征: 同上
分割:
- test: 133个样本, 4054775字节
- validation: 9个样本, 454884字节
- dev: 3个样本, 94198字节
下载大小: 4611452字节
数据集大小: 4603857.0字节

15. Medical Images

配置名称: Medical Images
特征: 同上
分割:
- test: 272个样本, 104441913字节
- dev: 4个样本, 1156863字节
- validation: 32个样本, 17433566字节
下载大小: 122355766字节
数据集大小: 123032342.0字节

16. Microscopic Images

配置名称: Microscopic Images
特征: 同上
分割:
- validation: 29个样本, 21579461字节
- test: 226个样本, 108291578字节
- dev: 3个样本, 354659字节
下载大小: 126792979字节
数据集大小: 130225698.0字节

17. Other

配置名称: Other
特征: 同上
分割:
- test: 60个样本, 17657338字节
- validation: 5个样本, 1013216字节
- dev: 3个样本, 1307808字节
下载大小: 19886386字节
数据集大小: 19978362.0字节

18. Paintings

配置名称: Paintings
特征: 同上
分割:
- dev: 5个样本, 7875650字节
- validation: 53个样本, 52167729字节
- test: 453个样本, 526534533字节
下载大小: 480458350字节
数据集大小: 586577912.0字节

19. Pathological Images

配置名称: Pathological Images
特征: 同上
分割:
- dev: 5个样本, 2220017字节
- validation: 26个样本, 18314204字节
- test: 253个样本, 143990760字节
下载大小: 164316041字节
数据集大小: 164524981.0字节

20. Photographs

配置名称: Photographs
特征: 同上
分割:
- dev: 13个样本, 25309945字节
- validation: 87个样本, 158877023字节
- test: 770个样本, 1401259631字节
下载大小: 1494867096字节
数据集大小: 1585446599.0字节

21. Plots and Charts

配置名称: Plots and Charts
特征: 同上
分割:
- test: 840个样本, 81246096字节
- validation: 82个样本, 6966628字节
- dev: 14个样本, 1146477字节
下载大小: 69764624字节
数据集大小: 89359201.0字节

22. Portraits

配置名称: Portraits
特征: 同上
分割:
- dev: 3个样本, 4294025字节
- validation: 13个样本, 14840430字节
- test: 91个样本, 97240049字节
下载大小: 110256281字节
数据集大小: 116374504.0字节

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，MMMU_img_type数据集通过系统化的方式构建而成。该数据集从多模态理解的实际需求出发，精心收集了涵盖3D渲染、医学影像、化学结构、地图、绘画等二十余种专业领域的图像类型。每个数据样本均以问题为核心，整合了对应的图像、选项、详细解释及标准答案，并标注了主题难度、问题类型和学科子领域，形成了结构化的多模态评估单元。构建过程注重图像类型的多样性与学科知识的深度，确保了数据在专业维度上的代表性与挑战性。

特点

该数据集最显著的特征在于其图像类型的极端多样性与学科交叉性。它不仅包含了常见的自然图像如照片、风景，更深入整合了专业领域的视觉材料，如医学扫描图像、化学结构图、数学符号、DNA序列图谱等，覆盖了艺术、科学、工程、人文等多个学科。每个样本最多可关联七张图像，提供了丰富的视觉上下文。数据集还细致标注了图像类型、问题难度与学科分类，为模型提供了细粒度的评估维度，能够全面检验视觉语言模型在复杂多模态场景下的理解与推理能力。

使用方法

该数据集主要用于评估多模态大模型在专业领域的视觉问答能力。研究者可通过HuggingFace平台加载特定配置，例如‘Medical Images’或‘Chemical Structures’，以访问对应子集。每个样本包含文本问题、多张相关图像及候选答案，模型需综合图文信息进行推理并选择正确答案。数据集已划分为开发集、验证集和测试集，便于进行模型训练、超参数调优及最终性能评测。其结构化设计支持端到端的评估流程，是衡量模型跨学科、跨模态理解能力的基准工具。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态理解能力成为关键瓶颈。MMMU_img_type数据集应运而生，旨在评估模型对复杂、专业领域图像与文本的综合推理能力。该数据集由研究社区于近期构建，其核心研究问题聚焦于跨越艺术、科学、医学等广泛学科的视觉问答任务。通过涵盖三维渲染、医学影像、化学结构、历史年表等二十余种高度专业化的图像类型，该数据集推动了多模态模型从通用场景向深度领域知识理解的范式转变，为衡量模型在真实世界复杂认知任务上的表现设立了新的基准。

当前挑战

该数据集致力于解决多模态视觉问答在高度专业化领域的核心挑战，即要求模型不仅识别图像内容，还需融合深厚的学科知识进行精准推理。这带来了模型需同时具备细粒度视觉解析与跨学科知识融合能力的双重难题。在构建过程中，挑战同样显著：一是数据采集与标注的复杂性，专业图像如医学扫描或化学结构图需要领域专家进行高成本、高准确度的标注；二是确保数据多样性与平衡性，需在众多学科子类中协调样本数量与问题难度，以避免评估偏差；三是处理多图像输入与长文本解释的异构数据整合，对数据集的工程架构提出了严峻考验。

常用场景

经典使用场景

在视觉语言模型评估领域，MMMU_img_type数据集以其跨学科、多模态的特性，成为衡量模型综合理解能力的经典基准。该数据集涵盖了从医学影像、化学结构到历史时间线等三十余种图像类型，每一示例均结合了图像与文本问题，要求模型进行深度推理与答案生成。这种设计使得该数据集能够全面检验模型在复杂真实场景下的视觉感知与逻辑分析能力，为研究者提供了一个极具挑战性的评估平台。

实际应用

在实际应用层面，该数据集为开发智能教育辅助系统和专业领域决策支持工具提供了关键数据资源。例如，在医学教育中，模型可以利用数据集中的人体扫描图像进行疾病诊断学习；在化学研究中，模型能够解析复杂的分子结构图。这些应用不仅提升了专业工作的效率，也促进了人工智能技术在科研、教育及工业界的深度融合与落地。

衍生相关工作

围绕MMMU_img_type数据集，学术界已衍生出一系列重要的研究工作。这些工作主要集中在开发新型的多模态融合架构、设计针对专业图像的预训练策略，以及探索模型在少样本学习下的性能提升。部分研究进一步利用该数据集的细粒度图像类型标注，深入分析了模型在不同视觉模态上的能力差异，为理解多模态模型的内部机制提供了宝贵洞见。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集