Real-Fake

github2023-12-09 更新2024-05-31 收录

下载链接：

https://github.com/BAAI-DCAI/Training-Data-Synthesis

下载链接

链接失效反馈

官方服务：

资源简介：

合成训练数据在许多学习任务和场景中越来越重要，提供了数据集增强、泛化评估和隐私保护等优势。尽管有这些好处，但当前方法生成的合成数据在训练高级深度模型时效率仍然较低，限制了其实用性。为了解决这一挑战，我们从分布匹配的角度分析了监督学习中训练数据合成的原理，并阐明了一个基于分布匹配的原理性理论框架，解释了合成效果的机制。通过广泛的实验，我们证明了我们的合成数据在各种图像分类任务中的有效性，无论是作为真实数据集的替代还是补充，同时也对诸如分布外泛化等挑战性任务和隐私保护有所助益。

Synthetic training data has gained increasing significance across numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and privacy preservation. Despite these benefits, synthetic data generated by current methods still exhibits low efficiency when training advanced deep models, which limits its practical applicability. To address this challenge, we analyze the principles of training data synthesis in supervised learning from the perspective of distribution matching, and propose a principled theoretical framework based on distribution matching to explain the mechanism underlying the effectiveness of synthetic data. Through extensive experiments, we validate the effectiveness of our synthetic data across various image classification tasks, whether used as a substitute for or supplement to real-world datasets, while also aiding challenging tasks such as out-of-distribution (OOD) generalization and privacy protection.

创建时间：

2023-10-09

原始信息汇总

Real-Fake: Effective Training Data Synthesis Through Distribution Matching

数据集概述

目的：合成训练数据在许多学习任务和场景中变得越来越重要，提供了数据集增强、泛化评估和隐私保护等优势。尽管有这些好处，但目前方法生成的合成数据的效率在训练高级深度模型时仍然不足，限制了其实际应用。
方法：通过分析监督学习中训练数据合成的原理，并从分布匹配的角度阐明了一个原则性的理论框架，解释了合成效率的机制。
实验：通过广泛的实验，展示了合成数据在各种图像分类任务中的有效性，既可以作为真实数据集的替代，也可以作为其增强，同时在分布外泛化和隐私保护等挑战性任务中也表现出优势。

数据集下载

合成数据集下载：可以从Dataset Link下载生成的合成数据集。

数据集生成

从零开始生成合成数据集：
1. 下载ImageNet-1K：从this link下载ImageNet-1K数据集。
2. 提取CLIP嵌入：检查./extract.sh并指定ImageNet数据的路径。 bash bash extract.sh
3. 获取BLIP2标题：使用BLIP2标题管道的实现。详细信息参考this paper。
4. 实现对扩散器的修改：TODO: 发布修改后的扩散器以直接安装。
5. 训练LoRA： bash bash ./finetune/train_lora.sh
6. 生成合成数据集： bash bash shell_generate.sh

评估

训练和评估：
1. 检查train.sh并指定--data_dir以在生成的合成数据上进行训练。
2. 指定使用的GPU数量。 bash bash train.sh

搜集汇总

数据集介绍

构建方式

Real-Fake数据集的构建基于分布匹配的理论框架，旨在提升合成数据在深度学习模型训练中的有效性。首先，通过提取ImageNet-1K数据集的CLIP嵌入和BLIP2描述，生成高质量的语义信息。随后，利用LoRA（Low-Rank Adaptation）技术对稳定扩散模型进行微调，生成与真实数据分布高度匹配的合成图像。最终，通过多GPU并行生成多个版本的数据集，确保数据的多样性和覆盖性。

特点

Real-Fake数据集的特点在于其合成数据与真实数据分布的高度一致性，能够有效替代或增强真实数据集。该数据集在图像分类任务中表现出色，尤其在分布外泛化和隐私保护等挑战性任务中展现了显著优势。此外，数据集支持多版本生成，用户可根据需求选择特定版本进行训练和评估。

使用方法

使用Real-Fake数据集时，用户需先下载预生成的合成数据或从ImageNet-1K开始生成自定义数据。通过执行提供的脚本，用户可提取CLIP嵌入、生成BLIP2描述，并训练LoRA模型以生成合成数据。生成的数据集可直接用于深度学习模型的训练，用户可通过指定数据版本和GPU数量进行高效训练。训练结果和模型将保存至指定目录，便于后续分析和应用。

背景与挑战

背景概述

Real-Fake数据集由Torrvision团队于2023年提出，旨在通过分布匹配的方法生成高效的合成训练数据，以应对深度学习模型在训练过程中对高质量数据的依赖。该数据集的核心研究问题在于如何通过理论框架指导合成数据的生成，使其在图像分类任务中能够替代或增强真实数据集，同时提升模型在分布外泛化和隐私保护等挑战性任务中的表现。Real-Fake数据集的提出为合成数据在深度学习中的应用提供了新的视角，推动了相关领域的研究进展。

当前挑战

Real-Fake数据集在构建和应用过程中面临多重挑战。首先，合成数据的生成效率和质量直接影响其在深度学习模型中的实用性，如何通过分布匹配理论优化合成过程是一个关键问题。其次，尽管合成数据在隐私保护和数据增强方面具有优势，但其在复杂任务中的表现仍需进一步提升，特别是在分布外泛化和高精度分类任务中。此外，数据集的构建过程涉及多步骤操作，包括CLIP嵌入提取、BLIP2标注生成以及LoRA模型的训练，这些步骤的复杂性和计算资源需求也对数据集的广泛应用提出了挑战。

常用场景

经典使用场景

Real-Fake数据集在图像分类任务中展现了其独特的价值，尤其是在数据增强和模型泛化评估方面。通过生成与真实数据分布高度匹配的合成数据，该数据集能够有效提升深度学习模型的训练效果，特别是在数据稀缺或隐私敏感的场景下。其经典使用场景包括但不限于图像分类、目标检测和语义分割等计算机视觉任务。

衍生相关工作

Real-Fake数据集的发布催生了一系列相关研究，特别是在合成数据生成和分布匹配领域。例如，基于该数据集的研究工作进一步探索了如何通过改进生成模型和优化分布匹配策略来提升合成数据的质量。此外，该数据集还激发了在隐私保护数据生成和跨域泛化任务中的创新研究，推动了相关领域的快速发展。

数据集最近研究