distilled images

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/SsnL/dataset-distillation

下载链接

链接失效反馈

官方服务：

资源简介：

将大量图像的知识提炼成少数合成训练图像，这些合成图像可用于训练网络以达到高准确率。

The knowledge from a large number of images is distilled into a few synthetic training images, which can be used to train networks to achieve high accuracy.

创建时间：

2018-12-04

原始信息汇总

数据集概述

数据集名称

Dataset Distillation

数据集描述

该数据集通过PyTorch实现，旨在将数以万计的图像的知识浓缩成少数被称为distilled images的合成训练图像。

数据集应用

性能展示
- 在MNIST数据集上，使用10个distilled images可以训练一个标准LeNet网络达到94%的测试准确率。
- 在CIFAR10数据集上，使用100个distilled images可以训练一个深度网络达到54%的测试准确率。
跨域适应
- 能够将SVHN和MNIST之间的域差异浓缩成100个distilled images，用于快速微调已训练的网络以在MNIST上达到高准确率。
对抗攻击
- 该方法可用于创建对抗攻击图像，优化后的网络在仅使用这些图像进行一次梯度步骤后，将错误分类特定目标类别。

数据集创建者

Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, Alexei A. Efros

数据集来源

Facebook AI Research, MIT CSAIL, UC Berkeley

数据集使用方法

数据集提供了三种不同的蒸馏设置的实现，用户可以通过命令行参数指定不同的数据集和网络架构进行使用。

系统要求

Python 3
CPU或NVIDIA GPU + CUDA

依赖项

torch >= 1.0.0
torchvision >= 0.2.1
numpy
matplotlib
pyyaml
tqdm

引用信息

@article{wang2018dataset, title={Dataset Distillation}, author={Wang, Tongzhou and Zhu, Jun-Yan and Torralba, Antonio and Efros, Alexei A}, journal={arXiv preprint arXiv:1811.10959}, year={2018} }

搜集汇总

数据集介绍

构建方式

该数据集通过数据集蒸馏技术构建，旨在将数万张图像的知识浓缩为少数合成训练图像，称为‘蒸馏图像’。具体而言，研究团队利用PyTorch框架，通过优化这些合成图像，使得新初始化的网络在仅应用少量梯度步骤后，能够在特定任务上达到高精度。此过程既可针对固定初始化进行优化，也可适应随机未知初始化，从而确保蒸馏图像的广泛适用性。

使用方法

使用该数据集时，用户可通过PyTorch实现三种不同的蒸馏设置，包括基本蒸馏、随机未知初始化和固定已知初始化。基本蒸馏设置下，用户可选择不同的数据集（如MNIST和CIFAR10）和网络架构进行实验。对于更复杂的应用场景，用户可参考高级用法文档进行定制化设置。通过简单的命令行操作，用户即可生成和优化蒸馏图像，进而提升模型性能。

背景与挑战

背景概述

数据集蒸馏（Dataset Distillation）是由Tongzhou Wang、Jun-Yan Zhu、Antonio Torralba和Alexei A. Efros于2018年在Facebook AI Research、MIT CSAIL和UC Berkeley合作开发的一项创新技术。该技术旨在将数万张图像的知识浓缩为少数几张合成训练图像，称为‘蒸馏图像’。这些蒸馏图像能够在固定初始化的情况下，显著提升模型在任务上的表现，例如在MNIST数据集上，10张蒸馏图像即可将标准LeNet训练至94%的测试准确率。此研究不仅在图像分类领域具有重要意义，还为快速微调和对抗攻击提供了新的思路，展示了数据集蒸馏在多个应用场景中的潜力。

当前挑战

数据集蒸馏面临的主要挑战包括：首先，如何在保持高精度的同时，将大规模数据集的知识压缩至极少数的合成图像中，这是一个计算复杂度与效果之间的权衡问题。其次，蒸馏图像的优化过程需要考虑不同初始化条件，确保其在随机初始化下的通用性，这增加了算法的复杂性和计算成本。此外，蒸馏图像在实际应用中的泛化能力，尤其是在不同任务和数据集之间的迁移能力，仍需进一步验证和优化。最后，如何确保蒸馏图像在对抗攻击等特定场景下的有效性，也是一个亟待解决的问题。

常用场景

经典使用场景

在深度学习领域，'distilled images'数据集的经典使用场景主要体现在其能够将大规模训练数据集的知识压缩至少数合成图像中。例如，在MNIST数据集上，仅需10张蒸馏图像即可将标准LeNet网络训练至94%的测试准确率，而在CIFAR10数据集上，100张蒸馏图像可将深度网络训练至54%的测试准确率。这种高效的数据压缩方法为资源受限环境下的模型训练提供了新的可能性。

解决学术问题

该数据集解决了在深度学习中数据量庞大与计算资源有限之间的矛盾，尤其是在资源受限的环境下如何高效训练模型的问题。通过将大量训练数据的知识压缩至少数合成图像中，'distilled images'显著减少了训练时间和计算资源的消耗，为学术界提供了一种新的数据处理范式，推动了模型训练效率的研究。

实际应用

在实际应用中，'distilled images'数据集可广泛应用于资源受限的设备，如移动设备和嵌入式系统，使得在这些设备上进行高效的深度学习模型训练成为可能。此外，该数据集还可用于快速微调预训练模型，特别是在跨域任务中，如将SVHN数据集上的模型快速微调至MNIST数据集，从而提高模型在不同任务间的适应性。

数据集最近研究