CIFAR10, CIFAR100, TinyImageNet

Name: CIFAR10, CIFAR100, TinyImageNet
Creator: 加州大学洛杉矶分校计算机科学系
Published: 2024-10-03 08:39:25
License: 暂无描述

arXiv2024-10-03 更新2024-10-09 收录

下载链接：

https://arxiv.org/pdf/2410.02116v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文研究了通过知识蒸馏进行数据集蒸馏的方法，特别关注自监督预训练深度网络的效率。数据集包括CIFAR10、CIFAR100和TinyImageNet，这些数据集用于生成小型合成数据集，以模拟在大规模图像数据集上的训练。数据集的创建过程涉及匹配学生模型和教师模型的训练轨迹，通过知识蒸馏降低自监督学习梯度的高方差。该数据集的应用领域主要是在有限标记数据的情况下，提高下游任务的准确性。

This paper investigates dataset distillation methods via knowledge distillation, with a particular focus on the efficiency of deep networks pre-trained through self-supervised learning. The datasets involved in this study include CIFAR10, CIFAR100 and TinyImageNet, which are used to generate small-scale synthetic datasets to simulate training on large-scale image datasets. The dataset creation process entails matching the training trajectories of student and teacher models, and reducing the high variance of gradients in self-supervised learning via knowledge distillation. The primary application scenario of this dataset is to enhance the accuracy of downstream tasks when only limited labeled data is available.

提供机构：

加州大学洛杉矶分校计算机科学系

创建时间：

2024-10-03

搜集汇总

数据集介绍

构建方式

该数据集的构建方式基于知识蒸馏（Knowledge Distillation, KD）技术，通过训练一个较小的学生模型来匹配一个较大的教师模型在自监督学习（Self-Supervised Learning, SSL）中的表示。具体而言，首先训练一个教师编码器使用SSL，然后训练多个学生编码器以最小化其表示与教师编码器表示之间的均方误差（MSE）。接着，通过匹配学生模型的训练轨迹来生成合成数据集。这种方法通过降低SSL梯度的高方差，显著提高了数据集蒸馏的效果。

使用方法

使用该数据集时，首先需要在蒸馏数据集上预训练编码器，通过最小化合成数据表示与教师编码器表示之间的MSE损失来实现。预训练完成后，可以在下游任务中使用这些预训练的编码器，通过训练线性分类器来评估其泛化误差。实验表明，该方法在多种下游任务中表现优异，尤其是在标签数据有限的情况下，显著提升了模型的性能。

背景与挑战

背景概述

数据集蒸馏（Dataset Distillation, DD）旨在生成一个极小的合成图像集，能够在极有限的内存和计算资源下模拟大规模图像数据集的训练过程。这一技术在边缘设备上的模型训练、持续学习以及提供强大的隐私保护方面具有显著优势。近年来，针对神经网络的监督学习方式的DD方法得到了广泛关注。然而，在许多应用中，标记样本非常有限，监督模型往往难以很好地泛化。在这种情况下，模型通常使用自监督学习（Self-Supervised Learning, SSL）在大量未标记数据上进行预训练，然后通过使用每个下游任务的有限标记数据训练线性分类器来适应下游任务（线性探针）。SSL预训练的益处在现代机器学习生态系统中尤为重要，因为未标记数据丰富，且需要有效地泛化到各种下游任务。

当前挑战

SSL的DD面临诸多挑战。首先，需要确保从无标签数据中蒸馏出的合成数据集进行预训练后，能够为各种下游任务生成高质量的表示。现有的监督学习DD方法通过匹配梯度或训练轨迹生成合成数据，这些方法严重依赖标签，否则会导致表示崩溃。因此，它们不适用于SSL的DD。最近的研究尝试将元模型匹配应用于SSL预训练，但结果表明，SSL预训练在这些蒸馏集上的表现并不优于在随机真实样本上的预训练。此外，SSL损失的高方差梯度问题使得直接应用轨迹匹配方法失败，这需要通过知识蒸馏（Knowledge Distillation, KD）来显著降低方差，从而实现有效的数据集蒸馏。

常用场景

经典使用场景

CIFAR10、CIFAR100和TinyImageNet数据集在自监督学习（SSL）预训练中发挥了经典作用。这些数据集通过生成小型合成数据集，能够在有限的内存和计算资源下高效训练深度网络。其经典使用场景包括在边缘设备上训练模型、加速持续学习以及提供强大的隐私保护。

解决学术问题

这些数据集解决了在监督学习中标签数据稀缺时模型泛化能力不足的问题。通过自监督预训练，模型可以在大量未标记数据上进行预训练，然后在下游任务中使用有限的标记数据进行微调。这种方法在仅使用1%标签的情况下，在ImageNet上比监督学习提高了近30%的准确率，显著提升了数据效率和模型性能。

实际应用

在实际应用中，这些数据集被广泛用于图像分类、目标检测和语义分割等任务。通过自监督预训练，模型可以在资源受限的环境中高效运行，适用于移动设备、嵌入式系统和物联网设备。此外，这些数据集还支持在隐私保护要求高的场景中进行数据处理和模型训练。

数据集最近研究