Toffee-5M

Name: Toffee-5M
Creator: Adobe Research 加州大学圣克鲁兹分校
Published: 2024-06-14 00:40:39
License: 暂无描述

arXiv2024-06-14 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.09305v1

下载链接

链接失效反馈

官方服务：

资源简介：

Toffee-5M是由Adobe Research和加州大学圣克鲁兹分校合作创建的大型数据集，专为特定主题驱动的文本到图像生成和编辑任务设计。该数据集包含480万对图像，其中包括160万对编辑图像，涵盖了风格、背景、颜色等多种变化。创建过程中，利用了预训练的扩散模型和控制网络，无需对每个主题进行微调，显著降低了构建大规模数据集的计算成本。Toffee-5M的应用领域广泛，旨在通过零样本学习，实现对任意主题图像的快速定制生成和编辑，无需测试时微调，极大地推动了相关领域的研究进展。

Toffee-5M is a large-scale dataset co-developed by Adobe Research and the University of California, Santa Cruz, specifically tailored for subject-driven text-to-image generation and editing tasks. This dataset contains 4.8 million image pairs, including 1.6 million edited image pairs, covering diverse variations such as style, background, and color. During its creation, pre-trained diffusion models and ControlNets were utilized, eliminating the need for fine-tuning on each individual subject, which significantly reduced the computational cost of building such a large-scale dataset. Toffee-5M has broad application prospects, aiming to enable rapid custom generation and editing of images for any subject through zero-shot learning without requiring fine-tuning during inference, greatly advancing research progress in related fields.

提供机构：

Adobe Research 加州大学圣克鲁兹分校

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

在主题驱动文本到图像生成领域，构建大规模数据集通常需要针对每个主题进行精细调整，这带来了巨大的计算成本。Toffee-5M数据集采用了一种创新的高效构建框架，通过预训练两个生成模型——Refiner和View Generator，避免了传统方法中针对每个主题的模型微调步骤。具体而言，该框架首先使用预训练的Stable Diffusion XL生成主题图像，然后通过ControlNet生成文本对齐的初步图像，接着利用Refiner基于DINO嵌入的语义匹配技术细化主题细节，最后通过View Generator引入视角变化以增加数据多样性。整个流程仅需一次预训练，即可无限生成高质量图像对，显著降低了计算资源需求。

使用方法

Toffee-5M数据集的使用旨在训练能够进行零样本主题驱动图像编辑与生成的模型。用户可通过训练如ToffeeNet之类的统一扩散模型，利用数据集中的图像对、文本提示和掩码进行端到端学习。在推理阶段，模型接收任意主题图像和文本提示作为输入，结合深度图条件控制视角变化，无需测试时微调即可在数秒内生成定制化图像。对于编辑任务，用户可提供掩码以指定局部修改区域；对于生成任务，则通过调整DINO嵌入强度参数λ来平衡主题保持与文本对齐。该数据集的高效构建方法也使其易于扩展，支持后续研究在资源有限环境下开发先进生成模型。

背景与挑战

背景概述

在主题驱动的文本到图像生成领域，高效构建大规模合成数据集是推动模型零样本泛化能力的关键。Toffee-5M数据集由Adobe Research与加州大学圣克鲁兹分校的研究团队于2024年联合创建，旨在解决现有方法在数据集构建过程中面临的巨大计算成本问题。该数据集的核心研究问题是通过创新算法框架，在无需对每个主题进行微调的情况下，高效生成包含500万图像对的大规模训练数据，从而支持模型在保持主题细节的同时实现文本对齐的图像编辑与生成。其突破性的构建效率对降低领域研究门槛、促进个性化内容生成技术的发展具有显著影响力。

当前挑战

该数据集致力于应对主题驱动图像生成领域的核心挑战：如何在零样本条件下，使生成模型准确捕捉用户提供的特定主题的细粒度细节，并依据文本提示创造性地改变图像的风格、背景、视角等属性，同时避免对测试图像进行耗时的微调。在构建过程中，研究团队面临的主要挑战在于突破传统方法需对每个主题进行模型微调的计算瓶颈，其计算成本随主题数量线性增长。为此，Toffee-5M通过设计无需主题级微调的创新流程，仅需预训练两个生成模型，实现了计算复杂度从O(N)到O(1)的跨越，从而在保证数据质量的前提下，将构建成本降低了数万GPU小时，为大规模数据集的创建提供了可行路径。

常用场景

经典使用场景

在主题驱动的文本到图像生成领域，Toffee-5M数据集为研究者提供了大规模、高质量的图像对资源，其最经典的使用场景是训练无需测试时微调的生成模型。通过该数据集，模型能够学习从单一主题图像中抽象出高层语义信息，并依据任意文本提示生成风格、背景或视角各异的创意图像。这种零样本生成能力显著提升了主题驱动生成任务的效率与泛化性能，为后续研究奠定了坚实的数据基础。

解决学术问题

Toffee-5M数据集有效解决了主题驱动生成中大规模合成数据构建成本高昂的学术难题。传统方法如SuTI和CAFE需对每个主题进行模型微调，耗费数万GPU小时，而Toffee通过预训练Refiner和View Generator，将计算复杂度从O(N)降至O(1)，大幅降低了资源门槛。该数据集不仅包含500万图像对，还提供了编辑掩码，支持生成与编辑双重任务，推动了高效、通用主题驱动模型的发展，对计算机视觉与生成式AI领域具有深远影响。

实际应用

在实际应用中，Toffee-5M数据集为个性化内容创作提供了强大支持。基于该数据集训练的模型能够快速生成符合用户需求的定制化图像，例如将宠物置于不同场景、改变商品外观风格或进行局部图像编辑。这种能力可广泛应用于广告设计、艺术创作、电子商务等领域，用户无需专业知识即可通过文本指令操控图像生成，显著提升了创意表达的便捷性与多样性，体现了生成式AI在现实场景中的实用价值。

数据集最近研究