由FLUX.1-schnell和FLUX.1-dev模型生成的完全合成图像对数据集

Name: 由FLUX.1-schnell和FLUX.1-dev模型生成的完全合成图像对数据集
Creator: 波兰弗罗茨瓦夫工业大学人工智能系
Published: 2025-05-05 05:28:21
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02255v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由波兰弗罗茨瓦夫工业大学人工智能系的研究人员创建，旨在通过比较和训练两种版本的图像生成模型（FLUX.1-schnell和FLUX.1-dev）来提高图像生成的质量。数据集包含280,000对图像，每对图像由同一主题和构图组成，但分别使用不同的FLUX.1版本生成，以提供可控的质量差异和逼真细节。此外，研究人员通过提示工程技术增强了数据集的多样性，使其在种族、民族、性别和年龄方面更具代表性。

This dataset was created by researchers from the Department of Artificial Intelligence, Wrocław University of Science and Technology, Poland. It aims to improve the quality of image generation by comparing and training two variants of image generation models: FLUX.1-schnell and FLUX.1-dev. The dataset contains 280,000 image pairs, where each pair consists of the same subject and composition, but is generated using different FLUX.1 variants respectively to provide controllable quality differences and realistic details. Additionally, researchers enhanced the diversity of the dataset through prompt engineering techniques, making it more representative across race, ethnicity, gender and age.

提供机构：

波兰弗罗茨瓦夫工业大学人工智能系

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

在生成式人工智能领域，提升图像真实感的同时降低计算成本是一个关键挑战。本研究通过构建一个完全合成的图像对数据集，为这一挑战提供了创新解决方案。数据集构建过程首先利用FLUX.1-schnell和FLUX.1-dev两个模型版本生成初始图像，随后通过精心设计的提示工程增强数据多样性。具体而言，研究团队采用IMDb演员数据库中的姓名作为提示词，生成了28万对512×512像素的肖像图像对，每对图像包含同一主题在不同模型下的生成结果，确保了质量差异的可控性。

特点

该数据集最显著的特点在于其完全合成的特性与精心设计的多样性。通过创新的提示工程策略，数据集在性别、年龄和种族分布上达到了良好的平衡，有效避免了生成模型中常见的偏见问题。图像对的设计使得质量差异主要体现在皮肤纹理、毛发细节和眼部反射等关键视觉特征上，为图像到图像的转换任务提供了理想的学习素材。此外，数据集规模庞大且标注成本为零，因为所有质量标签都通过模型版本差异自动获得。

使用方法

该数据集主要用于训练图像到图像的转换模型，以提升轻量级生成模型的输出质量。研究人员探索了两种主要方法：基于U-Net的监督式成对训练和基于CycleGAN的非监督式非成对训练。在实际应用中，用户可首先使用FLUX.1-schnell生成初始图像，再通过训练好的转换模型进行质量增强。这种方法在保持82%计算效率提升的同时，使输出质量接近计算密集型的FLUX.1-dev模型。数据集也可用于评估不同图像增强算法的性能，为此研究专门设计了FIDdiff等评估指标。

背景与挑战

背景概述

FLUX.1-schnell和FLUX.1-dev模型生成的完全合成图像对数据集由波兰弗罗茨瓦夫理工大学的Jakub Wąsala等人于2025年提出，旨在提升扩散模型生成图像的性价比。该数据集包含28万对合成肖像图像，通过FLUX.1-schnell（轻量蒸馏版）和FLUX.1-dev（高质基准版）生成，解决了肖像生成中细节缺失与计算成本高的核心矛盾。研究创新性地采用提示工程增强多样性，并通过图像翻译模型将蒸馏模型输出提升至基准质量，为资源受限环境下的高质量图像生成提供了新范式。

当前挑战

该数据集面临双重挑战：领域问题上，需克服蒸馏模型生成的肖像在皮肤纹理、毛发细节等微观特征上的系统性缺陷；构建过程中，既要保证图像对的语义一致性，又要通过提示工程解决初始数据集的性别/种族偏差。技术难点包括：1) U-Net架构训练时出现的网状伪影；2) 非配对训练中CycleGAN的循环一致性损失与细节保留的平衡；3) 传统指标（SSIM/PSNR）对图像质量评估的失效，需开发FIDdiff等新评估标准。

常用场景

经典使用场景

该数据集在生成式人工智能领域具有重要应用，特别是在提升扩散模型生成图像的真实感方面。通过FLUX.1-schnell和FLUX.1-dev模型生成的完全合成图像对，研究人员能够训练图像到图像（I2I）转换模型，从而显著提升蒸馏模型生成图像的质量。这一方法在肖像生成等特定领域尤为有效，能够在不增加计算成本的情况下，实现与基线模型相媲美的图像质量。

解决学术问题

该数据集解决了生成式模型中常见的两个关键学术问题：一是如何在资源受限的环境中提升图像生成质量，二是如何在不依赖真实参考图像或人工标注的情况下进行模型训练。通过合成图像对，研究人员能够学习蒸馏模型与基线模型之间的差异，从而设计出高效的I2I转换模型。这不仅降低了计算成本，还为生成式模型的优化提供了新的思路。

衍生相关工作

该数据集衍生了一系列经典工作，包括基于U-Net的监督式I2I模型和基于CycleGAN的非监督式方法。特别是ESA-CycleGAN的引入，通过增强空间注意力机制进一步提升了图像转换的质量。这些工作不仅在理论上验证了合成数据集的有效性，还为生成式模型的优化提供了实用的技术路径。此外，该数据集还促进了关于模型蒸馏、图像质量评估以及多样化生成等研究方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集