Dataset Condensation

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/VICO-UoE/DatasetCondensation

下载链接

链接失效反馈

官方服务：

资源简介：

数据集浓缩旨在将大型训练集T浓缩成小型合成集S，使得在小型合成集上训练的模型能够获得与大型训练集上训练的模型相当的测试性能。

The dataset distillation aims to condense a large training set T into a small synthetic set S, such that models trained on the small synthetic set can achieve test performance comparable to those trained on the large training set.

创建时间：

2020-09-18

原始信息汇总

数据集概述

数据集目的

数据集浓缩旨在将大型训练集T浓缩为小型合成集S，使得在小型合成集上训练的模型能够获得与在大型训练集上训练相当的测试性能。

包含方法

Dataset Condensation with Gradient Matching (ICLR 2021 Oral)
Dataset Condensation with Differentiable Siamese Augmentation (ICML 2021)
Dataset Condensation with Distribution Matching (arXiv 2021)

合成集下载

合成集可从Google Drive下载。每个.pt文件包含使用ConvNet在5次独立实验中学习的5个合成集及相应的100个测试准确率。这些合成数据已进行归一化处理。

实验设置

基本实验：使用python main.py命令，支持的参数包括--dataset（如MNIST, FashionMNIST, SVHN, CIFAR10, CIFAR100）和--ipc（每类图像数，如1, 10, 20, 30, 40, 50）。
跨架构实验：支持多种模型，如MLP, LeNet, ConvNet, AlexNet, VGG11BN, ResNet18BN_AP。
消融研究：针对不同模块进行，如ConvNetW32, ConvNetW64等。

性能表现

	MNIST	FashionMNIST	SVHN	CIFAR10	CIFAR100
1 img/cls	91.7	70.5	31.2	28.3	12.8
10 img/cls	97.4	82.3	76.1	44.9	25.2
50 img/cls	98.8	83.6	82.3	53.9	-

可视化

1 img/cls：使用ConvNet对MNIST, FashionMNIST, SVHN和CIFAR10的平均测试准确率分别为91.7%, 70.5%, 31.2%和28.3%。
10 img/cls：使用ConvNet对MNIST, FashionMNIST, SVHN和CIFAR10的平均测试准确率分别为97.4%, 82.3%, 76.1%和44.9%。

引用

@inproceedings{ zhao2021DC, title={Dataset Condensation with Gradient Matching}, author={Bo Zhao and Konda Reddy Mopuri and Hakan Bilen}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=mSAKhLYLSsl} }

搜集汇总

数据集介绍

构建方式

数据集的构建基于先进的梯度匹配技术，旨在将大规模训练集T浓缩为小型的合成集S。通过学习合成集，使得在合成集上训练的模型能够获得与在大规模训练集上训练相当的测试性能。具体方法包括梯度匹配、可微分孪生增强和分布匹配，这些方法通过优化合成数据，使其与真实数据的梯度或分布相匹配，从而实现数据集的浓缩。

使用方法

使用该数据集时，用户可以通过提供的Python脚本进行实验，选择不同的数据集、模型和合成数据的数量（ipc）。例如，使用`python main.py --dataset CIFAR10 --model ConvNet --ipc 10`命令可以进行CIFAR10数据集上的实验。此外，用户还可以通过Google Drive下载预先合成的数据集，直接用于模型训练和评估。

背景与挑战

背景概述

数据集浓缩（Dataset Condensation）是一项旨在将大型训练集T浓缩为小型合成集S的研究，使得在小型合成集上训练的模型能够获得与在大型训练集上训练的模型相当的测试性能。该研究由Bo Zhao、Konda Reddy Mopuri和Hakan Bilen等研究人员在2021年提出，并在多个国际会议上发表，包括ICLR 2021和ICML 2021。其核心研究问题是如何通过梯度匹配、可微分孪生增强和分布匹配等方法，有效地浓缩数据集，从而减少计算资源和存储需求。这一研究对机器学习和深度学习领域具有重要影响，特别是在资源受限的环境中，为模型训练提供了新的可能性。

当前挑战

数据集浓缩面临的主要挑战包括：1) 如何在保持模型性能的同时，最大限度地减少合成数据集的大小；2) 在构建过程中，如何确保合成数据集能够准确反映原始数据集的分布特性；3) 如何处理不同数据集和模型架构之间的差异，以确保浓缩方法的通用性和鲁棒性。此外，数据集浓缩还需要解决合成数据的可解释性和可视化问题，以便研究人员能够理解和验证浓缩过程的有效性。

常用场景

经典使用场景

在机器学习领域，数据集浓缩（Dataset Condensation）技术旨在将大规模训练集T浓缩为一个小型合成集S，使得在小型合成集上训练的模型能够获得与在大规模训练集上训练相当的测试性能。这一技术在资源受限的环境中尤为重要，因为它显著减少了训练所需的计算资源和时间。通过使用梯度匹配（Gradient Matching）、可微分孪生增强（Differentiable Siamese Augmentation）和分布匹配（Distribution Matching）等方法，数据集浓缩技术能够在保持模型性能的同时，大幅降低数据集的规模。

解决学术问题

数据集浓缩技术解决了大规模数据集在存储和计算资源上的瓶颈问题，特别是在资源受限的环境中。通过将大规模数据集浓缩为小型合成集，研究人员能够在减少数据存储需求的同时，保持甚至提升模型的性能。这一技术不仅优化了数据集的使用效率，还为机器学习模型的快速迭代和部署提供了可能，具有重要的学术研究意义和实际应用价值。

实际应用

在实际应用中，数据集浓缩技术广泛应用于资源受限的场景，如移动设备、嵌入式系统和边缘计算环境。通过将大规模数据集浓缩为小型合成集，这些设备能够在有限的存储和计算资源下，实现高效的模型训练和推理。此外，该技术还适用于数据隐私保护，通过浓缩数据集减少原始数据的暴露，从而降低数据泄露的风险。

数据集最近研究