D4M
收藏💾 D<sup>4</sup>M: Dataset Distillation via Disentangled Diffusion Model
💥 主要特点
- 无需优化的数据集蒸馏方式。
- 架构无关的数据集蒸馏过程。
- 高效蒸馏大规模数据集(如ImageNet-1K)。
- 蒸馏后的数据集质量高且多功能。
📚 简介
数据集蒸馏提供了一个轻量级的合成数据集,用于快速网络训练并具有良好的测试准确性。我们主张设计一个独立于匹配架构的经济型数据集蒸馏框架。通过实证观察,我们认为约束真实和合成图像空间的连续性将增强跨架构的泛化能力。基于此,我们引入了通过解耦扩散模型的数据集蒸馏(D<sup>4</sup>M),这是一个高效的数据集蒸馏框架。与依赖架构的方法相比,D<sup>4</sup>M采用潜在扩散模型来保证连续性,并将标签信息纳入类别原型中。蒸馏后的数据集多功能,无需为不同架构重复生成不同的数据集。通过全面的实验,D<sup>4</sup>M在大多数方面展示了优越的性能和稳健的泛化能力,超越了最先进的方法。
🔧 快速开始
创建环境
- Python >=3.9
- Pytorch >= 1.12.1
- Torchvision >= 0.13.1
安装Diffusers库
根据指定页面安装或升级最新版本的Diffusers库。
修改Diffusers库
- 将管道脚本复制到Diffusers库的路径中。
- 根据指定文档修改Diffusers源代码。
生成原型
bash cd distillation sh gen_prototype_imgnt.sh
合成图像
bash cd distillation sh gen_syn_image_imgnt.sh
✨ 定性结果
与其他方法的比较
- ImageNet-1K结果
- Tiny-ImageNet结果
- CIFAR-10结果
- CIFAR-100结果
语义信息
- 同一类别内的蒸馏数据
📊 定量结果
📖 引用
@InProceedings{Su_2024_CVPR, author = {Su, Duo and Hou, Junjie and Gao, Weizhi and Tian, Yingjie and Tang, Bowen}, title = {D{ extasciicircum}4M: Dataset Distillation via Disentangled Diffusion Model}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, pages = {5809-5818} }




