MegaStyle-1.4M
收藏arXiv2026-04-09 更新2026-04-11 收录
下载链接:
https://jeoyal.github.io/MegaStyle/
下载链接
链接失效反馈官方服务:
资源简介:
MegaStyle-1.4M是由腾讯AIPD实验室联合多所高校构建的大规模风格数据集,通过文本到图像生成模型的风格映射一致性实现。该数据集包含170K风格提示词与400K内容提示词组合生成的140万高质量图像,数据源自LAION-Aesthetics、WikiArt和JourneyDB等开放数据集。其构建过程采用Qwen3-VL模型标注图像风格特征,并通过分层聚类算法平衡提示词分布。该数据集专注于解决风格迁移任务中风格一致性与多样性的平衡问题,为艺术创作、滤镜开发等应用提供支持。
MegaStyle-1.4M is a large-scale style dataset constructed by Tencent AIPD Lab in collaboration with multiple universities, grounded in the style mapping consistency of text-to-image generation models. This dataset contains 1.4 million high-quality images generated from the combination of 170K style prompts and 400K content prompts, with source data derived from open datasets including LAION-Aesthetics, WikiArt, and JourneyDB. During the construction process, the Qwen3-VL model was utilized to annotate image style features, and a hierarchical clustering algorithm was adopted to balance the distribution of prompts. This dataset focuses on addressing the trade-off between style consistency and diversity in style transfer tasks, providing support for applications such as artistic creation and filter development.
提供机构:
同济大学; 腾讯; 南洋理工大学; 香港科技大学; 福州大学; 香港大学; 新加坡国立大学
创建时间:
2026-04-09
原始信息汇总
MegaStyle数据集概述
数据集名称
MegaStyle
数据集核心特性
- MegaStyle-1.4M: 包含约140万张风格图像的大规模风格数据集。
- 风格内一致性: 共享相同风格但内容不同的风格对。
- 风格间多样性: 包含大量多样的风格。
- 高质量: 数据集图像具有高质量。
数据构建方法
- 数据构建流程: 利用大型生成模型从给定风格描述生成相同风格图像的能力。
- 提示词库: 构建了包含17万条风格提示词和40万条内容提示词的多样化、平衡的提示词库。
- 生成方式: 通过内容-风格提示词组合生成大规模风格数据集。
数据集应用
- 风格编码器: 基于MegaStyle-1.4M,通过风格监督对比学习微调出MegaStyle-Encoder,用于提取富有表现力、风格特定的表示。
- 风格迁移模型: 训练了基于FLUX的风格迁移模型MegaStyle-FLUX。
- 模型效果: MegaStyle-FLUX在生成风格化图像时,能有效捕捉颜色、光线、纹理和笔触等细微差别,并与文本提示指定的内容以及参考图像的风格保持一致。
模型性能
- 对比基准: 与DEADiff、StyleShot、Attention-Distillation (Attn-Distill)、CSGO、StyleCrafter、InstantStyle和StyleAligned等最先进的风格迁移方法进行比较。
- 性能表现: MegaStyle-FLUX相比这些基线方法实现了更优的性能。
相关资源状态
- 论文: 即将发布
- 代码: 即将发布
- 数据集: 即将发布
- 模型: 即将发布
搜集汇总
数据集介绍

构建方式
在图像风格迁移领域,构建高质量风格数据集面临风格一致性不足与多样性有限的挑战。MegaStyle-1.4M通过创新的数据策展流程,利用现代大型生成模型在文本到图像转换中展现的稳定风格映射能力,实现了数据集的规模化构建。具体而言,研究团队首先从公开数据集中收集了内容与风格图像池,随后借助视觉语言模型Qwen3-VL,依据精心设计的指令模板,为图像生成描述性的内容提示与风格提示。通过两阶段平衡采样策略,包括去重与层次聚类,最终筛选出40万条内容提示与17万条风格提示,形成多样且平衡的提示库。基于这些提示,利用Qwen-Image模型将每条风格提示与多条内容提示组合,生成共计140万张风格图像,确保了同一风格下的内容差异性与跨风格的丰富多样性。
特点
MegaStyle-1.4M的核心特征体现在其卓越的风格一致性与广泛的风格多样性。数据集中的图像对共享相同的风格描述,却在视觉内容上各不相同,这种严格的组内一致性为监督学习提供了可靠的基础。同时,数据集涵盖了从传统绘画到数字艺术等多种艺术风格,包括水彩、抽象表现主义、赛博朋克等超过八千种整体艺术风格描述,实现了跨风格的高度多样性。此外,所有图像均通过先进的生成模型合成,在色彩、光影、纹理与笔触等细节层面保持了较高的视觉质量,避免了常见的人工痕迹与色彩渗漏等问题,为风格编码与迁移任务提供了优质且规模化的训练资源。
使用方法
MegaStyle-1.4M为风格迁移及相关研究提供了多方面的应用途径。在模型训练方面,数据集支持配对监督学习范式,可用于训练如MegaStyle-FLUX等基于扩散变换器的风格迁移模型,实现通用且稳定的风格转换。在风格表示学习领域,通过风格监督对比学习目标,能够微调风格编码器MegaStyle-Encoder,提取具有判别力的风格特定表征,进而实现可靠的风格相似性度量。此外,该数据集还可作为基准测试资源,用于评估风格检索、风格分类等任务的性能。研究人员可通过组合不同的内容与风格提示,灵活扩展数据规模,推动风格理解与生成技术的进一步发展。
背景与挑战
背景概述
在图像风格迁移领域,构建高质量、大规模且风格一致的数据集是推动算法发展的核心基础。MegaStyle-1.4M数据集由同济大学、腾讯、南洋理工大学等机构的研究团队于2026年提出,旨在解决现有风格数据集中普遍存在的类内风格不一致、类间多样性不足以及质量参差不齐等问题。该数据集创新性地利用大型生成模型(如Qwen-Image)所具备的从文本到图像的稳定风格映射能力,通过精心策划的17万风格提示词与40万内容提示词组合,生成了140万张具有明确风格一致性的图像对。MegaStyle-1.4M的构建标志着风格数据集的构建范式从依赖传统互联网爬取或现有风格迁移模型合成,转向了基于生成模型可控能力的规模化、高质量数据生产,为风格编码器训练和可控风格迁移模型的研发提供了至关重要的数据支撑。
当前挑战
MegaStyle-1.4M数据集致力于解决图像风格迁移领域的一个根本性挑战:如何在数据层面实现风格与内容的有效解耦,以支持基于配对监督的模型训练。具体而言,其面临的挑战包括:1) 领域问题挑战:传统风格迁移方法在自监督训练范式下难以将风格从紧密耦合的图像或特征空间中分离,导致内容泄漏和风格化效果不佳;同时,缺乏可靠的风格相似性度量标准也阻碍了数据集的自动扩展与评估。2) 构建过程挑战:数据构建的核心在于确保生成图像的类内风格一致性与类间多样性。这要求生成模型必须对文本风格描述具备高度精确和稳定的响应能力,以避免早期方法中因风格迁移模型性能不稳定而导致的颜色迁移有限、纹理不一致及可见伪影等问题。此外,构建过程中还需设计复杂的提示词策划与平衡采样策略,以覆盖广泛且均衡的风格与内容分布,并克服视觉语言模型在描述某些风格元素时可能产生的模糊性。
常用场景
经典使用场景
在图像风格迁移领域,MegaStyle-1.4M数据集凭借其内部风格一致性与跨风格多样性的双重优势,成为训练和评估风格迁移模型的理想基准。该数据集通过精心设计的文本到图像映射流程,生成了140万张高质量风格图像,每张图像均与特定风格描述符严格对齐,同时覆盖了从古典绘画到数字艺术等广泛的艺术风格。研究者在构建通用风格迁移模型时,常利用该数据集进行配对监督训练,以确保模型能够准确捕捉颜色、光影、纹理与笔触等细微风格特征,从而生成风格一致且内容多样的图像。
衍生相关工作
MegaStyle-1.4M的发布催生了一系列重要的衍生研究。基于该数据集训练的MegaStyle-Encoder通过风格监督对比学习,成为风格相似性度量的新基准,显著优于传统CLIP与CSD等方法。同时,MegaStyle-FLUX模型在多项风格迁移任务中达到领先性能,激发了后续研究如StyleShot-FLUX-Mega等改进工作。这些工作进一步验证了大规模高质量风格数据集对模型泛化能力的关键作用。数据集的构建方法论也为后续风格数据集的扩展提供了可复现的框架,推动社区探索更细粒度的风格描述与更大规模的风格空间建模。
数据集最近研究
最新研究方向
在图像风格迁移领域,数据集的构建正朝着大规模、高质量与风格一致性并重的方向发展。MegaStyle-1.4M 数据集通过利用大型生成模型(如 Qwen-Image)的文本到图像风格映射能力,构建了具备类内风格一致性与类间风格多样性的海量风格图像对。这一创新数据流水线解决了传统风格数据集因依赖现有风格迁移方法而导致的风格空间有限、质量不稳定及类内不一致等问题。基于该数据集训练的风格编码器(MegaStyle-Encoder)和风格迁移模型(MegaStyle-FLUX)在风格相似性度量与泛化性风格迁移任务中展现出显著优势,为风格表示学习与可控内容生成提供了坚实的数据基础,推动了数据驱动的风格迁移研究范式的前沿探索。
相关研究论文
- 1MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping同济大学; 腾讯; 南洋理工大学; 香港科技大学; 福州大学; 香港大学; 新加坡国立大学 · 2026年
以上内容由遇见数据集搜集并总结生成



