Soft-Label Dataset Distillation and Text Dataset Distillation

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/ilia10000/dataset-distillation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过合成图像和文本，将大量数据的知识浓缩成少数几个蒸馏图像或句子，用于训练深度学习模型。在MNIST和CIFAR10等数据集上，使用少数蒸馏图像即可达到接近完整训练集的性能。在IMDB数据集上，使用少数蒸馏句子也能达到接近完整训练集的性能。

This dataset synthesizes images and text, condensing the knowledge from a vast amount of data into a few distilled images or sentences, which are used to train deep learning models. On datasets such as MNIST and CIFAR10, using a small number of distilled images can achieve performance close to that of the full training set. Similarly, on the IMDB dataset, using a few distilled sentences can also achieve performance close to that of the full training set.

创建时间：

2019-02-24

原始信息汇总

数据集概述

数据集名称

Soft-Label Dataset Distillation and Text Dataset Distillation

数据集描述

该数据集是对原始Dataset Distillation的扩展，增加了软标签数据集蒸馏和文本数据集蒸馏功能。

数据集应用

在MNIST上，10个软标签蒸馏图像可以训练一个标准LeNet达到96%的测试准确率。
在CIFAR10上，100个软标签蒸馏图像可以训练一个深度网络达到60%的测试准确率。
在MNIST上，仅5个软标签蒸馏图像可以训练一个标准LeNet达到92%的测试准确率。
在IMDB上，20个蒸馏句子可以训练一个神经网络达到80%的测试准确率。

数据集创新点

引入软标签蒸馏，允许使用少于类别数量的点进行分类。
引入文本数据集蒸馏，扩展了可蒸馏数据集的范围。

数据集作者

Ilia Sucholutsky, Matthias Schonlau

数据集依赖环境

Python 3
PyTorch >= 1.0.0
torchvision >= 0.2.1
numpy
matplotlib
pyyaml
tqdm
torchtext

数据集使用方法

通过命令行使用提供的脚本进行数据集蒸馏，支持不同的数据集和网络架构。
提供了基本的蒸馏设置和高级使用方法的文档。

数据集引用

引用格式：

@article{sucholutsky2019softlabel, title={Soft-Label Dataset Distillation and Text Dataset Distillation}, author={Ilia Sucholutsky and Matthias Schonlau}, journal={arXiv preprint arXiv:1910.02551}, year={2019} }

搜集汇总

数据集介绍

构建方式

该数据集通过软标签数据集蒸馏和文本数据集蒸馏技术构建，旨在将大规模训练数据的知识压缩到少量合成训练样本中。具体而言，研究者通过优化合成图像及其软标签，使得新初始化的网络在仅使用这些蒸馏样本的情况下，仍能达到较高的任务性能。此过程涉及同时优化图像位置和标签分布，从而实现高效的模型训练。

特点

该数据集的显著特点在于其能够通过极少的合成样本实现高效的模型训练，尤其是在软标签蒸馏中，甚至可以使用少于类别数量的样本进行训练。此外，该数据集支持文本数据蒸馏，进一步扩展了蒸馏技术的应用范围。通过软标签和可学习位置的结合，数据集能够在减少样本数量的同时，保持较高的分类准确率。

使用方法

使用该数据集时，用户可以通过提供的脚本进行数据集蒸馏，支持随机初始化和固定初始化两种模式。对于软标签蒸馏，用户可以设置可学习的标签，并通过调整参数控制蒸馏样本的数量和初始化方式。对于文本数据蒸馏，用户需指定额外的参数，如文本数据集和模型架构，以实现高效的文本分类任务。

背景与挑战

背景概述

Soft-Label Dataset Distillation and Text Dataset Distillation数据集是由Ilia Sucholutsky和Matthias Schonlau于2019年在滑铁卢大学提出的一项创新研究成果。该数据集的核心研究问题是通过将大量训练数据的知识压缩到少数合成图像或文本中，从而实现高效的模型训练。这一研究不仅扩展了传统数据集蒸馏方法，还引入了软标签和文本数据蒸馏技术，显著提升了数据集的压缩效率和模型训练效果。该研究在图像分类和文本分类领域具有重要影响力，尤其是在资源受限的环境下，为模型训练提供了新的可能性。

当前挑战

该数据集面临的挑战主要集中在两个方面：一是如何在极少量的合成数据上保持模型的准确性，尤其是在图像和文本分类任务中，如何确保蒸馏后的数据能够有效传递原始数据集的知识；二是构建过程中，如何优化合成数据的生成过程，使其在不同初始化条件下仍能保持高精度。此外，文本数据蒸馏的引入也带来了新的挑战，如如何在文本数据中有效表示和优化软标签，以及如何处理不同类型的文本数据。这些挑战需要进一步的研究和技术突破，以提升数据集蒸馏技术的实用性和广泛应用性。

常用场景

经典使用场景

Soft-Label Dataset Distillation and Text Dataset Distillation 数据集的经典使用场景主要体现在其能够将大规模训练数据集的知识压缩到少数合成图像或文本中。例如，在MNIST数据集上，仅使用10张软标签蒸馏图像即可训练LeNet网络达到96%的测试准确率，而在CIFAR10数据集上，100张软标签蒸馏图像可训练深度网络达到60%的测试准确率。此外，在IMDB文本数据集上，20条蒸馏句子即可训练神经网络达到80%的测试准确率。

实际应用

Soft-Label Dataset Distillation and Text Dataset Distillation 数据集在实际应用中具有广泛的前景。例如，在资源受限的边缘设备上，通过使用蒸馏后的少量数据进行模型训练，可以显著减少存储和计算需求，提升设备性能。此外，在数据隐私保护领域，该技术可以通过减少原始数据的使用，降低数据泄露风险，为敏感数据的处理提供了一种有效的解决方案。

衍生相关工作

基于该数据集的研究衍生了一系列相关工作，特别是在少样本学习和数据高效利用领域。例如，LO-Shot项目进一步探索了少于一个样本的学习方法，展示了如何在极少数据点的情况下实现有效的分类。此外，该数据集的软标签蒸馏技术也为其他领域的研究提供了灵感，如在自然语言处理中，如何通过蒸馏技术提升小样本文本分类的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集