MMMG

github2025-06-13 更新2025-06-15 收录

下载链接：

https://github.com/MMMGBench/MMMG

下载链接

链接失效反馈

官方服务：

资源简介：

MMMG:一个大规模、多学科、多层次的文本到图像推理生成基准。

MMMG: A Large-scale, Multi-disciplinary, Multi-level Text-to-Image Reasoning and Generation Benchmark

创建时间：

2025-05-16

原始信息汇总

MMMG数据集概述

数据集基本信息

数据集名称: MMMG (Massive Multi-discipline Multi-tier Knowledge-Image Generation)
数据集地址: https://huggingface.co/datasets/MMMGBench/MMMG
评估指标: MMMG-Score = Knowledge Fidelity (1 − GED) × Visual Readability (SAM 2.1)

数据集结构

数据目录结构:

/data/ ├─ preschool/ ├─ primaryschool/ ├─ secondaryschool/ ├─ highschool/ ├─ undergraduate/ └─ PhD/
文件格式: 每个目录包含模型生成的图像文件（<prompt_key>.png）

评估方法

依赖服务: AzureOpenAI
关键脚本:
- mmmg_eval/step1_knowledge_integrity.py
- mmmg_eval/utils/gpt_api_pool.py
评估命令示例: bash python evaluate.py --img_dir ./data/GPT-4o --output_dir ./output --sam2_ckpt /YOUR/PATH/TO/sam2/checkpoints/sam2.1_hiera_large.pt --t2i_method GPT-4o --api_name o3 --hf_cache ./data/MMMG

引用格式

bibtex @article{luo2025mmmg, title={MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning}, author={Yuxuan Luo and Yuhui Yuan and Junwen Chen and Haonan Cai and Ziyi Yue and Yuwei Yang and Fatima Zohra Daha and Ji Li and Zhouhui Lian}, journal={arXiv preprint arXiv:2506.10963}, year={2025} }

搜集汇总

数据集介绍

构建方式

MMMG数据集作为跨学科知识-图像生成评估基准，其构建过程体现了严谨的多层次知识体系整合。研究团队采用分级知识架构，从学前教育到博士阶段划分六个教育层级，每个层级涵盖对应认知水平的跨学科知识图谱。数据采集通过结构化知识提取与视觉关联标注相结合的方式，确保每个知识节点都具有可验证的文本描述和对应的标准视觉表征。知识图谱的构建特别注重学科交叉性，使得生成图像需要同时理解不同领域的关联概念。

特点

该数据集最显著的特征在于其大规模跨学科知识覆盖，包含从基础到高阶的渐进式知识层级体系。知识节点通过教育阶段自然分层，既保持单学科知识连贯性，又构建了学科间的横向关联网络。评估体系创新性地融合知识保真度与视觉可读性双重指标，其中知识保真度采用图编辑距离量化，视觉质量则通过最先进的SAM 2.1模型评估。这种多维度评估框架能有效区分生成模型在复杂知识表征方面的细微差异。

使用方法

使用该数据集需配置AzureOpenAI服务环境，通过模块化评估流程实现标准化测试。用户需准备生成图像并按教育层级分类存放，运行评估脚本时将自动调用知识完整性检测和视觉质量分析模块。评估系统支持灵活的参数配置，包括指定SAM 2.1模型路径、文本生成模型类型及API调用方式。完整的评估流程将输出包含知识保真度和视觉可读性的综合得分，为改进生成模型提供量化依据。

背景与挑战

背景概述

MMMG数据集是由Yuxuan Luo等研究人员于2025年提出的一个大规模、多学科、多层次的知识-图像生成基准测试平台。该数据集由MMMGBench团队开发，旨在评估文本到图像生成模型在不同教育层次（从学龄前到博士阶段）和多种学科领域的知识保真度和视觉可读性。其核心研究问题聚焦于如何量化生成图像与文本知识之间的语义一致性，以及图像本身的视觉质量。MMMG通过引入MMMG-Score这一创新性指标，为跨模态生成模型的评估提供了新的方法论框架，对推动多模态人工智能的发展具有重要意义。

当前挑战

MMMG数据集面临的主要挑战体现在两个方面：在领域问题层面，需要解决跨学科知识表示与视觉生成的复杂映射关系，特别是在高层次学术领域（如博士阶段）的专有概念可视化存在显著困难；在构建过程层面，数据集需要精确标注数百万级的多层次知识描述，并确保图像-文本对在不同教育阶段的适切性，这对标注团队的专业素养提出了极高要求。同时，评估指标中知识保真度（GED）和视觉可读性（SAM 2.1）的平衡优化也构成了技术难点。

常用场景

经典使用场景

在跨模态生成领域，MMMG数据集为评估文本到图像生成模型的综合能力提供了标准化基准。该数据集通过覆盖从学前教育到博士阶段的六个知识层级，构建了多学科交叉的评估体系，特别适合检验生成模型在复杂知识表征与视觉呈现之间的对齐能力。研究人员利用其分级知识体系，能够系统性地分析模型在不同认知层次上的表现差异。

衍生相关工作

基于MMMG的评估框架，研究者开发了分层知识蒸馏技术HKD-MMMG，通过迁移学习提升生成模型在特定知识层级的性能。其多模态评估指标启发了CrossCheck等新型评测系统，衍生出面向医疗、法律等垂直领域的专业生成基准。数据集构建方法论更被Adaptive-MMMG等项目扩展，形成了动态难度调整的评估范式。

数据集最近研究