DataDream

github2024-07-10 更新2024-07-11 收录

下载链接：

https://github.com/ExplainableML/DataDream

下载链接

链接失效反馈

官方服务：

资源简介：

DataDream是一个用于合成分类数据集的框架，通过少量真实样本引导，更忠实地反映真实数据分布。该框架通过微调LoRA权重生成训练数据，并使用合成数据改进下游图像分类。

DataDream is a framework for synthesizing classification datasets. Guided by a small number of real samples, it can more faithfully reflect the underlying distribution of real-world data. This framework generates training data by fine-tuning LoRA weights, and utilizes the synthesized data to improve downstream image classification tasks.

创建时间：

2024-06-19

原始信息汇总

"DataDream: Few-shot Guided Dataset Generation"

作者

Jae Myung Kim
Jessica Bader
Stephan Alaniz
Cordelia Schmid
Zeynep Akata

摘要

DataDream 是一个框架，用于在少量目标类样本的引导下合成分类数据集，更忠实地反映真实数据分布。该框架首先在少量真实图像上微调图像生成模型的 LoRA 权重，然后使用调整后的模型生成训练数据。接着，使用合成数据微调 CLIP 的 LoRA 权重，以提高在多种数据集上的下游图像分类性能。实验表明，DataDream 在 10 个数据集中有 7 个数据集的分类准确率超过现有技术，其余 3 个数据集的性能相当。此外，还探讨了不同因素（如真实样本数量、生成图像数量及微调计算量）对模型性能的影响。

初步设置

使用 16-shot 数据集时，每个数据文件应位于路径 data/$DATASET/real_train_fewshot/seed$SEED_NUMBER/$CLASS_NAME/$FILE。
每个数据集的类别列表可在 DataDream/util_data.py 文件中找到。

步骤

安装 requirements.txt 中的必要依赖。
按照 DataDream 文件夹中的说明进行操作。
按照 generate 文件夹中的说明生成数据集。
按照 classify 文件夹中的说明训练分类器。

引用

bibtex @misc{kim2024datadreamfewshotguideddataset, title={DataDream: Few-shot Guided Dataset Generation}, author={Jae Myung Kim and Jessica Bader and Stephan Alaniz and Cordelia Schmid and Zeynep Akata}, year={2024}, eprint={2407.10910}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.10910}, }

搜集汇总

数据集介绍

构建方式

在图像分类领域，DataDream数据集的构建方式独具匠心。该数据集通过利用少量的真实图像样本，对图像生成模型进行LoRA权重的微调，从而生成更贴近真实数据分布的训练数据。具体而言，首先从目标类别中选择少量的真实图像，然后利用这些图像对生成模型进行微调，生成新的合成数据。随后，这些合成数据被用于进一步微调CLIP模型的LoRA权重，以提升下游图像分类任务的性能。

特点

DataDream数据集的显著特点在于其能够通过少量的真实样本生成高质量的合成数据，从而有效弥补真实数据不足的问题。该数据集生成的图像不仅在分布上更接近真实数据，还能捕捉到细粒度的特征，这对于提升分类模型的泛化能力至关重要。此外，DataDream在多个数据集上的实验结果表明，其生成的数据在分类准确率上超越了现有的最先进方法，尤其是在少样本数据的情况下表现尤为突出。

使用方法

使用DataDream数据集进行图像分类任务时，首先需按照指定格式组织少量的真实图像数据，并将其存储在相应的路径下。接着，用户需安装所需的依赖包，并按照提供的步骤依次执行数据集生成和分类器训练。具体步骤包括：安装依赖、执行DataDream框架、生成合成数据集，以及最终的分类器训练。通过这一系列步骤，用户可以充分利用DataDream生成的合成数据，提升图像分类模型的性能。

背景与挑战

背景概述

在图像合成领域，文本到图像扩散模型已展现出卓越的性能，但其下游应用的有效性尚未得到充分验证。以往的研究尝试在有限的真实数据访问条件下生成用于图像分类器训练的数据集，但这些方法往往难以生成符合真实数据分布的图像，尤其是难以描绘细粒度特征，从而限制了基于合成数据训练的分类模型的泛化能力。DataDream数据集由Jae Myung Kim、Jessica Bader、Stephan Alaniz、Cordelia Schmid和Zeynep Akata等研究人员于2024年提出，旨在通过少量真实样本引导生成更忠实于真实数据分布的分类数据集。该数据集通过微调LoRA权重来适应图像生成模型，并进一步微调CLIP模型以提升下游图像分类性能，展示了在多个数据集上超越现有技术的分类准确率。

当前挑战

DataDream数据集面临的挑战主要集中在生成符合真实数据分布的图像以及描绘细粒度特征上。尽管该数据集在多个数据集上展示了优越的分类准确率，但其生成过程依赖于少量真实样本，这可能导致生成的图像在某些情况下仍难以完全捕捉真实数据的复杂性。此外，数据集的构建过程中还需考虑生成图像的数量、真实样本的数量以及微调计算资源对模型性能的影响，这些因素的复杂交互增加了数据集构建的难度。

常用场景

经典使用场景

在图像分类领域，DataDream数据集的经典应用场景主要体现在其能够通过少量真实样本生成高质量的合成数据，从而辅助训练图像分类模型。具体而言，该数据集通过微调LoRA权重，使得生成模型能够更准确地捕捉目标类别的细微特征，进而生成与真实数据分布更为接近的图像。这种生成方式不仅提升了合成数据的质量，还显著提高了分类模型在下游任务中的表现。

实际应用

在实际应用中，DataDream数据集为图像分类任务提供了强大的支持，特别是在数据稀缺或难以获取的场景下。例如，在医疗影像分析中，由于患者隐私和数据获取成本的限制，真实数据往往有限。DataDream通过生成高质量的合成数据，能够有效扩充训练集，提升诊断模型的准确性和鲁棒性。此外，在工业检测、安防监控等领域，该数据集同样展现出巨大的应用潜力。

衍生相关工作

DataDream数据集的提出激发了大量相关研究，特别是在少样本学习和数据增强领域。例如，有研究者基于DataDream的生成策略，提出了改进的LoRA微调方法，进一步提升了合成数据的质量和分类模型的性能。此外，还有工作探讨了如何将DataDream应用于多模态数据生成，以解决跨模态学习中的数据稀缺问题。这些衍生工作不仅丰富了数据生成的理论体系，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集