Mogao

Name: Mogao
Creator: 字节跳动种子实验室
Published: 2025-05-09 01:58:57
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05472v1

下载链接

链接失效反馈

官方服务：

资源简介：

Mogao数据集是专门为联合文本和图像生成而构建的大规模数据集，包含了一千万条数据。该数据集旨在促进统一模型在多模态理解和生成方面的研究和应用，尤其适用于Mogao模型。数据集的构建过程采用了高效的训练策略，可以同时优化教师强制文本标记和基于扩散的视觉标记。数据集的应用领域包括图像理解、文本到图像生成、图像编辑和合成，旨在解决多模态内容生成的问题。

The Mogao Dataset is a large-scale dataset specifically developed for joint text and image generation, comprising 10 million data instances. This dataset is intended to advance research and applications of unified models in multimodal understanding and generation, and is particularly tailored for the Mogao Model. The construction of this dataset employs an efficient training strategy that simultaneously optimizes teacher-forcing text tokens and diffusion-based visual tokens. Its applicable domains include image understanding, text-to-image generation, image editing and synthesis, aiming to address the challenges in multimodal content generation.

提供机构：

字节跳动种子实验室

创建时间：

2025-05-09

原始信息汇总

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation

基本信息

标题: Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation
作者: Chao Liao, Liyang Liu, Xun Wang, Zhengxiong Luo, Xinyu Zhang, Wenliang Zhao, Jie Wu, Liang Li, Zhi Tian, Weilin Huang
提交日期: 2025年5月8日 (v1), 2025年5月11日 (v2)
arXiv标识符: arXiv:2505.05472v1 [cs.CV]
DOI: 10.48550/arXiv.2505.05472
分类: Computer Vision and Pattern Recognition (cs.CV)

摘要

Mogao是一个统一框架，通过因果方法实现交错多模态生成。其关键改进包括：

深度融合设计
双视觉编码器
交错旋转位置嵌入
多模态无分类器引导

这些改进使Mogao能够：

结合自回归模型和扩散模型的优势
处理任意交错的文本和图像序列
在大规模内部数据集上高效训练

实验表明，Mogao在以下方面表现优异：

多模态理解
文本到图像生成
生成高质量、连贯的交错输出
零样本图像编辑和组合生成

技术报告

类型: Mogao Technical Report
版本: v1 (2025年5月8日), v2 (2025年5月11日)
PDF链接: View PDF

搜集汇总

数据集介绍

构建方式

Mogao数据集的构建采用了深度融合架构和双视觉编码器设计，通过整合自回归模型和扩散模型的优势，实现了多模态数据的无缝融合。数据集的构建过程包括三个阶段：低分辨率统一训练、高分辨率统一训练和多模态交错训练。特别地，Mogao利用大规模内部数据集进行高效训练，并通过交错的多模态序列优化文本和视觉标记的生成。这种构建方式不仅提升了模型的训练效率，还显著增强了其在多模态理解和生成任务中的表现。

特点

Mogao数据集的特点在于其强大的交错多模态生成能力，能够处理任意交错的文本和图像序列。数据集通过创新的技术改进，如交错旋转位置嵌入和多模态无分类器引导，显著提升了生成质量。此外，Mogao在零样本图像编辑和组合生成等任务中展现出卓越的涌现能力，使其成为一个实用的全模态基础模型。数据集的高质量和一致性使其在多模态理解和文本到图像生成任务中均达到最先进的性能。

使用方法

Mogao数据集的使用方法包括多模态理解和生成任务的联合训练与评估。用户可以通过输入交错的文本和图像序列，利用模型的因果生成能力实现多模态输出。具体使用时，模型通过特殊标记区分视觉和文本模态，动态切换生成模式。此外，数据集支持高效的大规模训练策略，如全局批次减少损失和高效完整教师强制，显著提升了训练和推理的效率。用户还可以通过零样本图像编辑和组合生成等任务，进一步探索模型的潜力。

背景与挑战

背景概述

Mogao数据集由字节跳动Seed团队于2025年5月发布，旨在推动多模态生成领域的研究。该数据集以敦煌莫高窟为名，象征着跨千年艺术融合的愿景，核心解决了交错多模态生成（Interleaved Multi-Modal Generation）这一前沿问题。通过整合自回归文本生成与扩散模型图像合成的优势，Mogao实现了文本与图像在任意序列中的双向条件生成，其创新的深度融合架构、双视觉编码器和交错旋转位置嵌入技术，显著提升了多模态内容的一致性生成能力。该数据集作为首个支持原生交错模态建模的大规模基准，为通用人工智能的发展提供了重要基础设施。

当前挑战

Mogao面临的核心挑战体现在两个维度：领域问题层面，需突破传统单模态生成模型的局限，解决多模态条件耦合、跨模态语义对齐及长序列连贯性维持等难题；数据构建层面，需克服交错模态数据稀缺性、异构模态表示差异（如ViT与VAE编码器的特征空间不匹配），以及训练过程中文本标记预测与图像扩散损失的动态平衡问题。此外，模型需在10亿级参数规模下实现高效计算，通过全局批次归一化策略解决多任务梯度冲突，并设计双分类器引导机制以缓解交错生成时的模态偏好现象。

常用场景

经典使用场景

Mogao数据集在多模态生成领域具有广泛的应用，尤其在文本与图像交替生成任务中表现卓越。该数据集通过深度融合自回归模型和扩散模型，实现了高质量的文本到图像生成以及图像到文本的理解，为多模态交互提供了强大的支持。其经典使用场景包括生成连贯的图文交替内容，如故事叙述、教学材料生成以及多模态对话系统。

衍生相关工作

Mogao数据集衍生了许多经典研究工作，包括但不限于多模态理解与生成的统一框架、零样本图像编辑技术以及多模态序列生成模型。相关研究如Emu3、Janus-Pro和TransFusion等，均在Mogao的基础上进一步优化了多模态生成的性能和应用范围，推动了多模态人工智能领域的发展。

数据集最近研究