MMMG

Name: MMMG
Creator: 北京大学王选计算机科学技术研究所, 北京邮电大学, 澳大利亚国立大学, 微软亚洲研究院, 微软
Published: 2025-06-13 12:39:54
License: 暂无描述

arXiv2025-06-13 更新2025-06-14 收录

下载链接：

https://mmmgbench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MMMG数据集是一个大规模、多学科、多层次的文本到图像推理基准，旨在探索图像生成模型在知识图像生成任务上的推理能力。该数据集包含4,456个经过专家验证的知识图像-提示对，涵盖了10个学科、6个教育水平和多种知识格式，如图表、图解和思维导图。每个样本都附有一个高质量的知识图，列出了必要的实体及其依赖关系，使模型能够在不同领域和推理水平上进行泛化。该数据集的创建旨在解决当前文本到图像生成模型在推理能力上的不足，并通过引入MMMG分数来评估生成知识图像的准确性和清晰度。

The MMMG dataset is a large-scale, multi-disciplinary and multi-level text-to-image reasoning benchmark, which aims to investigate the reasoning capabilities of image generation models in knowledge-oriented image generation tasks. It consists of 4,456 expert-validated knowledge image-prompt pairs, spanning 10 disciplines, 6 educational tiers, and various knowledge formats including charts, diagrams and mind maps. Each sample is paired with a high-quality knowledge graph that enumerates requisite entities and their dependency relationships, allowing models to generalize across diverse domains and reasoning hierarchies. This dataset is developed to mitigate the limitations of current text-to-image generation models in terms of reasoning performance, and the MMMG score is introduced to evaluate the accuracy and clarity of the generated knowledge-rich images.

提供机构：

北京大学王选计算机科学技术研究所, 北京邮电大学, 澳大利亚国立大学, 微软亚洲研究院, 微软

创建时间：

2025-06-13

原始信息汇总

MMMG数据集概述

基本信息

全称: Massive Multi-Discipline Multi-Tier Knowledge-Image Generation Benchmark (MMMG)
提出机构: 北京大学王选计算机研究所、微软亚洲研究院等
对应作者: yuhui.yuan@microsoft.com, lianzhouhui@pku.edu.cn
论文链接: arXiv
数据集代码: 提供（未标注具体链接）

核心特点

任务类型: 知识图像生成（Knowledge Image Generation）
规模: 4,456个专家验证的（知识）图像-提示对
覆盖范围:
- 10个学科领域
- 6个教育层级（从学前到博士）
- 多种知识格式（图表、示意图、思维导图等）

评估体系

核心指标: MMMG-Score（×100）
- 知识保真度分数（基于知识图谱的图编辑距离）
- 可读性分数（基于分割的视觉清晰度评估）
评估基准: 包含16个主流图像生成模型的性能对比

技术贡献

知识图谱表示: 采用统一的知识图谱(KG)表示方法，明确描述目标图像的核心实体及其依赖关系
基线模型: FLUX-Reason（MMMG-Score 34.45）
- 结合推理大语言模型与扩散模型
- 基于16,000个精选知识图像-提示对训练

性能表现

最佳模型: GPT-4o（平均MMMG-Score 50.20）
学科差异: 地理和文学等描述性领域表现较好，历史和社会学等抽象领域挑战更大
错误分析: 主要失败类型包括可读性、实体表示和依赖结构问题

可视化示例

提供生物学、化学、工程学、数学、经济学、地理学、社会学、历史学、文学、哲学等10个学科的可视化案例（未展示具体内容）

引用格式

bibtex @article{luo2025mmmg, title={MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning}, author={Yuxuan Luo and Yuhui Yuan and Junwen Chen and Haonan Cai and Ziyi Yue and Yuwei Yang and Fatima Zohra Daha and Ji Li and Zhouhui Lian}, journal={arXiv preprint arXiv:2506.10963}, year={2025} }

搜集汇总

数据集介绍

构建方式

MMMG数据集的构建采用多阶段严谨流程，首先基于教育层级与学科领域的关键词组合，通过大语言模型生成初始文本提示，随后结合生成式模型与网络爬虫获取候选图像。经过自动化去重、OCR过滤及人工专家验证，从20,000组候选数据中精选出4,456对高质量知识图像-文本对。每对数据均标注结构化知识图谱，明确实体与依赖关系，确保跨学科与教育层级的逻辑一致性。

特点

该数据集涵盖10大学科领域与6个教育层级，包含图表、图解及思维导图等多种知识可视化形式。其核心特征在于以知识图谱作为统一表征，抽象化实体与关系以降低视觉复杂性，同时支持跨领域泛化评估。数据规模达4,456对专家验证样本，实体与依赖数量随教育层级提升而增加，呈现显著的结构化复杂度梯度。

使用方法

MMMG专用于评估文本到图像生成模型的推理能力，需配合其提出的MMMG-Score指标使用。该指标融合知识图谱编辑距离与视觉清晰度评分，通过大语言模型提取生成图像中的子图结构，与真实图谱进行对比计算保真度，并借助分割模型量化视觉可读性。使用者需将生成图像输入标准化评估流程，最终获得综合得分以衡量模型在多学科知识可视化任务中的性能。

背景与挑战

背景概述

MMMG（大规模、多学科、多层级生成基准）由微软研究院与北京大学王选计算机研究所于2025年联合推出，旨在系统评估文本到图像生成模型在多学科知识推理方面的能力。该数据集涵盖生物学、化学、经济学等10个学科及6个教育层级，包含4,456个经过专家验证的知识图像-提示对。其创新性在于将认知科学中的双重编码理论和图像优势效应融入评估体系，通过结构化知识图谱显式表征实体与关系，为生成模型在解释性视觉内容构建领域的研究提供了重要基础设施。

当前挑战

领域问题层面，MMMG需解决知识图像生成中多模态推理的三大核心挑战：实体保真度低导致关键概念缺失、关系表征弱化造成逻辑链断裂、视觉杂乱度升高影响信息传递效率。构建过程中面临标注复杂性挑战，需协调跨学科专家完成知识图谱的实体-关系标注，并设计统一谓词体系以兼容不同学科的逻辑表达。此外，数据收集需克服教育资源的碎片化问题，通过多阶段过滤机制确保图像与文本提示的语义对齐，同时维持不同教育层级的知识复杂度梯度。

常用场景

实际应用

在实际应用层面，MMMG支撑了智能教育工具的开发，能够自动生成适配不同学段（从学前到博士）的学科可视化教材。例如在经济学课堂中，模型可根据“市场均衡机制”生成包含供给曲线、需求曲线及均衡点的专业图表；在工程训练中，能动态呈现应力-应变曲线的弹性变形阶段与断裂点。这些应用显著降低了知识图像制作的专业门槛，为个性化学习提供了可扩展的视觉内容生成方案。

衍生相关工作

该数据集催生了FLUX-Reason等开源基线模型，其通过融合推理大语言模型与扩散模型架构，开创了显式推理链引导图像生成的新范式。后续研究如ImageGen-CoT和HiDream在此基础上扩展了思维链提示技术，而Meta-Queries则探索了跨模态元查询机制。这些工作共同推动了结构化知识注入生成模型的技术路线，在WISE等后续基准中形成了多模态推理评估的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集