five

0601p/MMMU_img_type

收藏
Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/0601p/MMMU_img_type
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子数据集,每个子数据集专注于不同的主题,如3D渲染、广告、医学图像等。每个子数据集都提供了详细的特征描述,包括图像和文本数据,以及数据集的分割信息。这些数据集适用于多种研究和应用,如图像识别、自然语言处理等。

该数据集包含多个子数据集,每个子数据集专注于不同的主题,如3D渲染、广告、医学图像等。每个子数据集都提供了详细的特征描述,包括图像和文本数据,以及数据集的分割信息。这些数据集适用于多种研究和应用,如图像识别、自然语言处理等。
提供机构:
0601p
原始信息汇总

数据集概述

1. 3D Renderings

  • 配置名称: 3D Renderings
  • 特征:
    • id: 字符串
    • question: 字符串
    • options: 字符串
    • explanation: 字符串
    • image_1 到 image_7: 图像
    • img_type: 字符串
    • answer: 字符串
    • topic_difficulty: 字符串
    • question_type: 字符串
    • subfield: 字符串
    • subset: 字符串
  • 分割:
    • test: 21个样本, 4466585字节
  • 下载大小: 4473038字节
  • 数据集大小: 4466585.0字节

2. Advertisements

  • 配置名称: Advertisements
  • 特征: 同上
  • 分割:
    • validation: 2个样本, 3407657字节
    • test: 10个样本, 6312078字节
  • 下载大小: 9720162字节
  • 数据集大小: 9719735.0字节

3. Body Scans MRI, CT scans, and X-rays

  • 配置名称: Body Scans MRI, CT scans, and X-rays
  • 特征: 同上
  • 分割:
    • test: 198个样本, 60918954字节
    • validation: 17个样本, 4015755字节
    • dev: 1个样本, 47701字节
  • 下载大小: 60192828字节
  • 数据集大小: 64982410.0字节

4. Chemical Structures

  • 配置名称: Chemical Structures
  • 特征: 同上
  • 分割:
    • validation: 31个样本, 1015062字节
    • test: 573个样本, 27816783字节
    • dev: 5个样本, 193659字节
  • 下载大小: 27430848字节
  • 数据集大小: 29025504.0字节

5. Comics and Cartoons

  • 配置名称: Comics and Cartoons
  • 特征: 同上
  • 分割:
    • test: 131个样本, 64346837字节
    • validation: 24个样本, 8392729字节
    • dev: 2个样本, 686983字节
  • 下载大小: 69220151字节
  • 数据集大小: 73426549.0字节

6. DNA Sequences

  • 配置名称: DNA Sequences
  • 特征: 同上
  • 分割:
    • test: 20个样本, 3133533字节
    • validation: 1个样本, 14557字节
  • 下载大小: 2612993字节
  • 数据集大小: 3148090.0字节

7. Diagrams

  • 配置名称: Diagrams
  • 特征: 同上
  • 分割:
    • validation: 246个样本, 23274784字节
    • test: 3184个样本, 246452886字节
    • dev: 36个样本, 3926079字节
  • 下载大小: 253913890字节
  • 数据集大小: 273653749.0字节

8. Geometric Shapes

  • 配置名称: Geometric Shapes
  • 特征: 同上
  • 分割:
    • validation: 20个样本, 1338457字节
    • test: 336个样本, 20151880字节
    • dev: 2个样本, 83500字节
  • 下载大小: 20947240字节
  • 数据集大小: 21573837.0字节

9. Historical Timelines

  • 配置名称: Historical Timelines
  • 特征: 同上
  • 分割:
    • test: 30个样本, 6349680字节
    • dev: 1个样本, 190854字节
    • validation: 1个样本, 160074字节
  • 下载大小: 5958787字节
  • 数据集大小: 6700608.0字节

10. Icons and Symbols

  • 配置名称: Icons and Symbols
  • 特征: 同上
  • 分割:
    • test: 42个样本, 11485123字节
    • validation: 2个样本, 608484字节
    • dev: 2个样本, 1571777字节
  • 下载大小: 13698626字节
  • 数据集大小: 13665384.0字节

11. Landscapes

  • 配置名称: Landscapes
  • 特征: 同上
  • 分割:
    • test: 16个样本, 16490990字节
    • dev: 3个样本, 887489字节
    • validation: 2个样本, 862137字节
  • 下载大小: 18271343字节
  • 数据集大小: 18240616.0字节

12. Logos and Branding

  • 配置名称: Logos and Branding
  • 特征: 同上
  • 分割:
    • validation: 3个样本, 278757字节
    • test: 14个样本, 4568224字节
  • 下载大小: 4864604字节
  • 数据集大小: 4846981.0字节

13. Maps

  • 配置名称: Maps
  • 特征: 同上
  • 分割:
    • test: 170个样本, 83283890字节
    • validation: 13个样本, 5737072字节
    • dev: 1个样本, 631026字节
  • 下载大小: 81001818字节
  • 数据集大小: 89651988.0字节

14. Mathematical Notations

  • 配置名称: Mathematical Notations
  • 特征: 同上
  • 分割:
    • test: 133个样本, 4054775字节
    • validation: 9个样本, 454884字节
    • dev: 3个样本, 94198字节
  • 下载大小: 4611452字节
  • 数据集大小: 4603857.0字节

15. Medical Images

  • 配置名称: Medical Images
  • 特征: 同上
  • 分割:
    • test: 272个样本, 104441913字节
    • dev: 4个样本, 1156863字节
    • validation: 32个样本, 17433566字节
  • 下载大小: 122355766字节
  • 数据集大小: 123032342.0字节

16. Microscopic Images

  • 配置名称: Microscopic Images
  • 特征: 同上
  • 分割:
    • validation: 29个样本, 21579461字节
    • test: 226个样本, 108291578字节
    • dev: 3个样本, 354659字节
  • 下载大小: 126792979字节
  • 数据集大小: 130225698.0字节

17. Other

  • 配置名称: Other
  • 特征: 同上
  • 分割:
    • test: 60个样本, 17657338字节
    • validation: 5个样本, 1013216字节
    • dev: 3个样本, 1307808字节
  • 下载大小: 19886386字节
  • 数据集大小: 19978362.0字节

18. Paintings

  • 配置名称: Paintings
  • 特征: 同上
  • 分割:
    • dev: 5个样本, 7875650字节
    • validation: 53个样本, 52167729字节
    • test: 453个样本, 526534533字节
  • 下载大小: 480458350字节
  • 数据集大小: 586577912.0字节

19. Pathological Images

  • 配置名称: Pathological Images
  • 特征: 同上
  • 分割:
    • dev: 5个样本, 2220017字节
    • validation: 26个样本, 18314204字节
    • test: 253个样本, 143990760字节
  • 下载大小: 164316041字节
  • 数据集大小: 164524981.0字节

20. Photographs

  • 配置名称: Photographs
  • 特征: 同上
  • 分割:
    • dev: 13个样本, 25309945字节
    • validation: 87个样本, 158877023字节
    • test: 770个样本, 1401259631字节
  • 下载大小: 1494867096字节
  • 数据集大小: 1585446599.0字节

21. Plots and Charts

  • 配置名称: Plots and Charts
  • 特征: 同上
  • 分割:
    • test: 840个样本, 81246096字节
    • validation: 82个样本, 6966628字节
    • dev: 14个样本, 1146477字节
  • 下载大小: 69764624字节
  • 数据集大小: 89359201.0字节

22. Portraits

  • 配置名称: Portraits
  • 特征: 同上
  • 分割:
    • dev: 3个样本, 4294025字节
    • validation: 13个样本, 14840430字节
    • test: 91个样本, 97240049字节
  • 下载大小: 110256281字节
  • 数据集大小: 116374504.0字节
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,MMMU_img_type数据集通过系统化的方式构建而成。该数据集从多模态理解的实际需求出发,精心收集了涵盖3D渲染、医学影像、化学结构、地图、绘画等二十余种专业领域的图像类型。每个数据样本均以问题为核心,整合了对应的图像、选项、详细解释及标准答案,并标注了主题难度、问题类型和学科子领域,形成了结构化的多模态评估单元。构建过程注重图像类型的多样性与学科知识的深度,确保了数据在专业维度上的代表性与挑战性。
特点
该数据集最显著的特征在于其图像类型的极端多样性与学科交叉性。它不仅包含了常见的自然图像如照片、风景,更深入整合了专业领域的视觉材料,如医学扫描图像、化学结构图、数学符号、DNA序列图谱等,覆盖了艺术、科学、工程、人文等多个学科。每个样本最多可关联七张图像,提供了丰富的视觉上下文。数据集还细致标注了图像类型、问题难度与学科分类,为模型提供了细粒度的评估维度,能够全面检验视觉语言模型在复杂多模态场景下的理解与推理能力。
使用方法
该数据集主要用于评估多模态大模型在专业领域的视觉问答能力。研究者可通过HuggingFace平台加载特定配置,例如‘Medical Images’或‘Chemical Structures’,以访问对应子集。每个样本包含文本问题、多张相关图像及候选答案,模型需综合图文信息进行推理并选择正确答案。数据集已划分为开发集、验证集和测试集,便于进行模型训练、超参数调优及最终性能评测。其结构化设计支持端到端的评估流程,是衡量模型跨学科、跨模态理解能力的基准工具。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,多模态理解能力成为关键瓶颈。MMMU_img_type数据集应运而生,旨在评估模型对复杂、专业领域图像与文本的综合推理能力。该数据集由研究社区于近期构建,其核心研究问题聚焦于跨越艺术、科学、医学等广泛学科的视觉问答任务。通过涵盖三维渲染、医学影像、化学结构、历史年表等二十余种高度专业化的图像类型,该数据集推动了多模态模型从通用场景向深度领域知识理解的范式转变,为衡量模型在真实世界复杂认知任务上的表现设立了新的基准。
当前挑战
该数据集致力于解决多模态视觉问答在高度专业化领域的核心挑战,即要求模型不仅识别图像内容,还需融合深厚的学科知识进行精准推理。这带来了模型需同时具备细粒度视觉解析与跨学科知识融合能力的双重难题。在构建过程中,挑战同样显著:一是数据采集与标注的复杂性,专业图像如医学扫描或化学结构图需要领域专家进行高成本、高准确度的标注;二是确保数据多样性与平衡性,需在众多学科子类中协调样本数量与问题难度,以避免评估偏差;三是处理多图像输入与长文本解释的异构数据整合,对数据集的工程架构提出了严峻考验。
常用场景
经典使用场景
在视觉语言模型评估领域,MMMU_img_type数据集以其跨学科、多模态的特性,成为衡量模型综合理解能力的经典基准。该数据集涵盖了从医学影像、化学结构到历史时间线等三十余种图像类型,每一示例均结合了图像与文本问题,要求模型进行深度推理与答案生成。这种设计使得该数据集能够全面检验模型在复杂真实场景下的视觉感知与逻辑分析能力,为研究者提供了一个极具挑战性的评估平台。
实际应用
在实际应用层面,该数据集为开发智能教育辅助系统和专业领域决策支持工具提供了关键数据资源。例如,在医学教育中,模型可以利用数据集中的人体扫描图像进行疾病诊断学习;在化学研究中,模型能够解析复杂的分子结构图。这些应用不仅提升了专业工作的效率,也促进了人工智能技术在科研、教育及工业界的深度融合与落地。
衍生相关工作
围绕MMMU_img_type数据集,学术界已衍生出一系列重要的研究工作。这些工作主要集中在开发新型的多模态融合架构、设计针对专业图像的预训练策略,以及探索模型在少样本学习下的性能提升。部分研究进一步利用该数据集的细粒度图像类型标注,深入分析了模型在不同视觉模态上的能力差异,为理解多模态模型的内部机制提供了宝贵洞见。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作