MACRO

github2026-03-27 更新2026-03-28 收录

下载链接：

https://github.com/HKU-MMLab/Macro

下载链接

链接失效反馈

官方服务：

资源简介：

MACRO是一个多参考图像生成数据集和基准，涵盖四个任务类别——定制、插图、空间和时间——跨越四个图像数量范围（1-3、4-5、6-7、≥8参考图像）。除了数据集外，还提供了三个开源模型的微调检查点：Bagel、OmniGen2和Qwen-Image-Edit。

MACRO is a multi-reference image generation dataset and benchmark covering four task categories—customization, illustration, spatial, and temporal—across four image count ranges: 1–3, 4–5, 6–7, and ≥8 reference images. In addition to the dataset, fine-tuned checkpoints of three open-source models are also provided: Bagel, OmniGen2, and Qwen-Image-Edit.

创建时间：

2026-03-26

原始信息汇总

MACRO 数据集概述

数据集基本信息

数据集名称：MACRO (Multi-Reference Image Generation Dataset and Benchmark)
核心贡献：一个多参考图像生成数据集和基准测试。
任务类别：涵盖四个任务类别：定制化 (Customization)、插画 (Illustration)、空间 (Spatial) 和时间 (Temporal)。
参考图像数量分级：每个任务类别下包含四个图像数量分级：1-3张、4-5张、6-7张、≥8张参考图像。
关联模型：提供了基于三个开源模型微调的检查点：Bagel、OmniGen2 和 Qwen-Image-Edit。

数据集获取与结构

获取地址：https://huggingface.co/datasets/Azily/Macro-Dataset
数据格式：以 .tar.gz 压缩包形式提供。
选择性下载：支持仅下载评估基准（filter.tar.gz，约510 MB）或特定任务/划分/类别的数据包。
目录结构：解压后的 data/ 目录包含三个主要子目录：
- filter/：用于训练和评估的JSON索引文件。
- final/：实际的图像数据，由 filter/ 中的JSON文件引用。
- raw/：原始源图像及数据构建过程中的中间文件。

数据内容与格式

数据样本：每个JSON文件代表一个数据样本，包含以下字段：
- task：任务类别。
- idx：样本索引。
- prompt：文本指令。
- input_images：参考图像路径列表。
- output_image：目标输出图像路径。
路径说明：所有图像路径均相对于项目根目录。
数据规模：每个任务类别的每个图像数量分级包含大量训练样本（例如，定制化任务1-3分级有20,000个训练样本）和250个评估样本。

基准测试与评估

评估框架：包含批量推理和基于LLM的评分流程。
推理配置：为每个模型提供了专用的 inference/config.yaml 配置文件，用于指定检查点路径和要运行的任务。
评分方法：支持使用GPT或Gemini等大语言模型进行自动化评分，需配置相应的API凭证。
动态分辨率：输入图像会根据参考图像数量自动调整分辨率。

训练支持

训练数据：使用 data/filter/ 目录下的数据作为多参考图像生成训练数据。
文本到图像数据：不提供文本到图像预训练数据，但支持用户提供自己的JSONL格式数据并进行混合训练。
训练配置：为每个基础模型提供了配置生成脚本 (process_config.py)，可根据 config.yaml 生成包含数据集配置和运行脚本的实验目录。
训练运行：生成的 run.sh 脚本支持单节点或多节点训练，检查点保存在实验目录下的 results/checkpoints/ 中。

相关资源

项目主页：https://macro400k.github.io/
论文地址：https://arxiv.org/abs/2603.25319
微调模型检查点：
- Macro-Bagel: https://huggingface.co/Azily/Macro-Bagel
- Macro-OmniGen2: https://huggingface.co/Azily/Macro-OmniGen2
- Macro-Qwen-Image-Edit: https://huggingface.co/Azily/Macro-Qwen-Image-Edit
基础模型下载地址：README中列出了训练所需的所有基础模型的Hugging Face仓库地址。

搜集汇总

数据集介绍

构建方式

在图像生成领域，多参考图像生成任务对数据质量与结构提出了更高要求。MACRO数据集的构建采用了系统化的多阶段流程，首先依据定制化、插画、空间与时间四大任务类别，将原始图像数据按参考图像数量划分为四个层级。随后借助Gemini文本API与Nano图像API生成结构化指令与合成目标图像，最终通过自动化质量评分机制筛选出高质量样本，形成包含训练与评估数据的完整集合。

特点

MACRO数据集在图像生成领域展现出鲜明的结构化特征，其核心在于覆盖了四大任务类别与四个参考图像数量层级，构成了一个层次分明的评估体系。数据集不仅提供了丰富的多参考图像样本，还附带了针对Bagel、OmniGen2和Qwen-Image-Edit三种开源模型的微调检查点，支持动态分辨率调整以适应不同输入规模。这种设计使得该数据集能够系统性地评估模型在处理复杂长上下文指令时的性能。

使用方法

研究人员可通过Hugging Face平台获取MACRO数据集的归档文件，解压后获得包含索引文件与图像数据的完整目录结构。数据集支持批量推理与评估，用户可配置检查点路径并运行专用脚本，在四大任务类别上进行系统测试。评估阶段整合了基于LLM的自动化评分机制，通过配置API凭证即可对生成结果进行多维度质量评估，为模型性能比较提供量化依据。

背景与挑战

背景概述

在生成式人工智能迅猛发展的浪潮中，多参考图像生成任务旨在依据多张输入图像及其复杂的文本指令，合成出既符合语义约束又具备视觉一致性的新颖图像。MACRO数据集由香港大学多媒体实验室（HKU MMLab）与美团的研究团队于近期联合构建，其核心研究问题聚焦于解决现有模型在处理长上下文、结构化多参考图像生成时的能力局限。该数据集系统性地涵盖了定制化、插画、空间与时间四大任务类别，并依据参考图像数量进行分级，为领域提供了首个大规模、结构化的基准测试平台，显著推动了可控图像生成技术的演进与评估体系的完善。

当前挑战

多参考图像生成领域面临的核心挑战在于，模型需要精准理解并融合多张参考图像中离散的视觉概念（如风格、物体、布局）与复杂的文本指令，以生成高度一致且高质量的图像，这对模型的跨模态理解与长上下文建模能力提出了极高要求。在数据集构建过程中，研究者们需应对大规模高质量数据合成的挑战，包括通过自动化流程生成语义连贯的指令-图像对，并利用大语言模型与生成模型进行迭代筛选以保证数据质量，同时还需设计合理的任务分类与分级体系以覆盖多样化的生成场景。

常用场景

经典使用场景

在图像生成领域，多参考图像生成任务要求模型能够综合多张输入图像的视觉信息，并依据文本指令生成符合语义约束的新图像。MACRO数据集通过涵盖定制化、插画、空间和时间四大任务类别，并按照参考图像数量（1-3、4-5、6-7、≥8）进行结构化划分，为研究者提供了一个系统性的基准测试平台。其经典使用场景包括训练和评估如Bagel、OmniGen2和Qwen-Image-Edit等开源模型，以提升模型在复杂多参考条件下的生成能力，推动图像生成技术向更精细、更可控的方向发展。

实际应用

在实际应用层面，MACRO数据集支撑了多种现实场景的图像生成需求。例如，在电子商务中，可根据用户提供的多张商品图片和风格描述，生成符合个性化定制的宣传图像；在数字艺术创作中，艺术家能够结合多幅参考画作和文字指令，快速生成新颖的插画或概念图；在虚拟场景构建中，模型可依据空间布局参考图像和时间序列信息，生成连贯的动态视觉内容。这些应用显著提升了创意产业的效率，并为教育、娱乐和设计等领域提供了强大的辅助工具。

衍生相关工作

围绕MACRO数据集，已衍生出一系列经典研究工作。基于该数据集微调的Macro-Bagel、Macro-OmniGen2和Macro-Qwen-Image-Edit等模型，成为多参考图像生成领域的重要基线。这些工作不仅验证了数据集的有效性，还推动了模型架构的优化，如长上下文处理机制和多模态对齐技术的改进。此外，数据集提供的LLM-based评分框架启发了更客观的生成质量评估方法，相关成果已在学术社区中广泛引用，为后续研究提供了坚实的实验基础和方向指引。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集