CIFAR-10, ImageNet, Speech Commands

Name: CIFAR-10, ImageNet, Speech Commands
Creator: 首尔国立大学计算机科学与工程系
Published: 2022-06-02 13:45:02
License: 暂无描述

arXiv2022-06-02 更新2024-06-21 收录

下载链接：

https://github.com/snu-mllab/Efficient-Dataset-Condensation

下载链接

链接失效反馈

官方服务：

资源简介：

本文研究的数据集包括CIFAR-10、ImageNet和Speech Commands。CIFAR-10是一个包含10个类别，每个类别500张训练图像和100张测试图像的标准数据集，图像大小为32x32像素。ImageNet是一个大规模的图像数据库，包含超过1400万张已标记的图像，用于训练大规模的视觉识别模型。Speech Commands数据集包含8000个一秒长的音频剪辑，用于语音命令识别任务。这些数据集被用于评估通过高效合成数据参数化方法进行的数据集浓缩的效果，旨在减少对大规模数据的依赖，提高训练和调优的计算效率。

The datasets investigated in this study include CIFAR-10, ImageNet, and Speech Commands. CIFAR-10 is a standard dataset consisting of 10 classes, with 500 training images and 100 test images per class, and each image has a size of 32×32 pixels. ImageNet is a large-scale image database containing over 14 million labeled images, which is utilized for training large-scale visual recognition models. The Speech Commands dataset includes 8,000 1-second-long audio clips, designed for speech command recognition tasks. These datasets are employed to evaluate the effectiveness of dataset condensation via efficient synthetic data parameterization methods, with the goal of reducing reliance on large-scale datasets and enhancing the computational efficiency of model training and fine-tuning.

提供机构：

首尔国立大学计算机科学与工程系

创建时间：

2022-05-30

搜集汇总

数据集介绍

构建方式

在数据集压缩领域，传统方法通常直接优化合成数据的每个元素，如逐像素调整，但未考虑数据固有的规律性，导致在有限存储预算下合成数据数量受限，优化效果欠佳。本研究提出了一种创新的多形态框架，通过高效的参数化方法，在固定存储约束下生成多个合成数据。具体而言，该框架引入确定性多形态函数，将压缩数据映射为更多数量的合成训练数据，例如通过局部插值和双线性上采样来增加数据量，同时保持自然数据的局部平滑特性。这一过程不仅扩大了合成数据集规模，还通过数据规律性对优化进行了正则化，从而在CIFAR-10、ImageNet和Speech Commands等数据集上实现了更优的信息压缩。

特点

该数据集压缩方法的核心特点在于其高效的多形态参数化与优化技术。多形态框架通过增加合成数据数量并利用数据规律性，显著提升了压缩数据的代表性和信息密度。与现有方法相比，该方法在相同存储预算下能生成更多合成数据，并通过理论分析证明了其在任何数据集距离度量下的优化优势。此外，研究还改进了梯度匹配优化，通过使用在真实数据上预训练的神经网络和更强的正则化技术，解决了梯度消失和优化耦合问题，从而实现了更稳定和高效的压缩。这些特点使得压缩后的数据集在多种测试模型和任务中表现出卓越的泛化能力和性能提升。

使用方法

该压缩数据集的使用方法主要涉及两个阶段：优化阶段和评估阶段。在优化阶段，通过多形态函数将压缩数据转换为更多数量的合成数据，并利用梯度匹配目标函数，结合真实数据上预训练的神经网络权重，对压缩数据进行端到端的优化。算法采用交替更新策略，定期重新初始化网络权重以保持在训练早期阶段，从而有效提取任务相关信息。在评估阶段，优化后的压缩数据通过多形态函数生成合成训练数据集，用于训练任意神经网络模型。用户可根据具体任务需求，在持续学习、神经架构搜索等应用中直接使用这些合成数据，以替代原始大规模数据集，显著降低计算和存储成本，同时保持模型性能。

背景与挑战

背景概述

CIFAR-10、ImageNet和Speech Commands作为深度学习领域的经典数据集，分别于2009年、2009年和2018年由多伦多大学、斯坦福大学和谷歌等机构的研究团队创建，旨在解决图像分类、大规模视觉识别和语音命令识别等核心问题。这些数据集通过提供海量标注样本，极大地推动了卷积神经网络和深度学习的演进，成为模型训练与评估的基石。其广泛的应用不仅加速了计算机视觉和语音处理技术的发展，还为后续研究如数据集压缩等新兴方向奠定了数据基础。

当前挑战

在数据集压缩领域，核心挑战在于如何在有限存储预算下，合成高度信息密集的紧凑数据集，以替代原始海量数据用于模型训练。具体而言，现有方法面临合成数据参数化效率低下的问题，未能充分利用数据规律性（如自然图像的局部平滑性），导致优化过程受限且合成样本数量不足。此外，梯度匹配等优化技术易受网络梯度范数失衡和过拟合影响，难以在压缩数据中有效保留原始数据的判别信息，尤其在跨架构模型泛化方面表现不佳。

常用场景

经典使用场景

在机器学习领域，数据集压缩技术旨在通过合成紧凑的训练数据集来减少对大规模原始数据的依赖。CIFAR-10、ImageNet和Speech Commands作为经典基准数据集，常被用于验证压缩算法的有效性。这些数据集覆盖了图像分类和语音识别等核心任务，其丰富的样本多样性和高分辨率特性使得它们成为评估压缩方法在保持模型性能同时降低存储与计算成本的理想平台。通过在这些数据集上应用压缩技术，研究者能够系统分析合成数据的信息密度与泛化能力，推动高效学习范式的发展。

实际应用

在实际应用中，压缩后的数据集显著提升了机器学习系统的部署灵活性。例如，在边缘计算设备上，压缩数据减少了存储需求与传输带宽，使得图像分类或语音指令识别模型能够在资源受限的环境中高效运行。在持续学习系统中，压缩数据作为历史任务的代表性样本，有效缓解了模型在学习新任务时对旧知识的遗忘。此外，该技术还可加速自动化机器学习流程，如神经架构搜索，通过快速评估合成数据上的模型性能来降低超参数调优的成本。

衍生相关工作

该压缩框架衍生了一系列经典研究工作，例如基于梯度匹配的优化方法通过对齐合成数据与原始数据在网络训练中的梯度方向来提升压缩效果。后续研究引入了可微分数据增强与多形态生成策略，进一步增强了合成数据的多样性与正则化特性。此外，针对特征匹配的加速算法以及基于核函数的回归方法也被提出，以平衡压缩效率与性能。这些工作共同推动了数据集压缩领域向更高效、更通用的方向发展，并为跨领域应用如语音处理与大规模图像识别提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集