FreD

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/sdh0818/FreD

下载链接

链接失效反馈

官方服务：

资源简介：

本论文介绍了FreD，一种新颖的数据集蒸馏参数化方法，它利用频率域从大型原始数据集中蒸馏出小型合成数据集。与传统关注空间域的方法不同，FreD采用基于频率的变换来优化每个数据实例的频率表示。通过利用空间域信息在特定频率成分上的集中，FreD智能地选择了一组频率维度进行优化，显著减少了合成实例所需的预算。通过基于解释方差选择频率维度，FreD在有限的预算内展示了其理论和实证上的效率，同时相比传统参数化方法更好地保留了原始数据集的信息。此外，基于FreD与现有方法的正交兼容性，我们确认FreD在不同基准数据集的评估场景中持续提高了现有蒸馏方法的性能。

This paper introduces FreD, a novel dataset distillation parameterization method that leverages the frequency domain to distill a small synthetic dataset from a large original dataset. Unlike traditional methods that focus on the spatial domain, FreD employs frequency-based transformations to optimize the frequency representation of each data instance. By utilizing the concentration of spatial domain information on specific frequency components, FreD intelligently selects a set of frequency dimensions for optimization, significantly reducing the budget required for synthetic instances. Through the selection of frequency dimensions based on explained variance, FreD demonstrates its theoretical and empirical efficiency within a limited budget, while better preserving the information of the original dataset compared to traditional parameterization methods. Additionally, based on the orthogonal compatibility of FreD with existing methods, we confirm that FreD consistently enhances the performance of existing distillation methods across various benchmark dataset evaluation scenarios.

创建时间：

2023-10-04

原始信息汇总

数据集概述

数据集名称

Frequency Domain-based Dataset Distillation (FreD)

数据集来源

该数据集是基于论文 "Frequency Domain-based Dataset Distillation" 的研究成果，该论文将在 NeurIPS 2023 会议上发表。

数据集内容

FreD 是一种基于频率域的数据集蒸馏方法，旨在从大型原始数据集中蒸馏出小型合成数据集。该方法通过优化每个数据实例的频率表示，利用空间域信息在特定频率成分上的集中，智能选择频率维度进行优化，从而显著减少合成实例所需的预算。

数据集更新

2024年5月7日，已上传大部分蒸馏后的合成数据集，剩余部分将尽快上传。

数据集使用

数据集支持多种蒸馏目标，包括梯度匹配（DC）、分布匹配（DM）、轨迹匹配（TM）等。具体使用方法可通过提供的脚本进行实验。

实验结果

数据集在多个基准数据集上进行了测试，包括 MNIST、FashionMNIST、SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNet 等，展示了不同配置下的测试准确率。

数据集引用

若使用该数据集进行研究，请引用相关论文： bib @inproceedings{shin2023frequency, title={Frequency Domain-Based Dataset Distillation}, author={Shin, DongHyeok and Shin, Seungjae and Moon, Il-chul}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023} }

数据集兼容性

FreD 方法与现有的数据集蒸馏方法具有良好的兼容性，能够提升现有方法的性能。

搜集汇总

数据集介绍

构建方式

FreD数据集的构建基于频率域的参数化方法，通过从大规模原始数据集中提取频率表示，生成小规模的合成数据集。与传统空间域方法不同，FreD利用频率变换优化每个数据实例的频率表示，并根据解释方差选择频率维度进行优化，从而显著减少合成实例所需的计算资源。

特点

FreD数据集的主要特点在于其高效的频率域优化策略，能够在有限的计算预算内更好地保留原始数据集的信息。此外，FreD与现有数据集蒸馏方法具有正交兼容性，能够显著提升现有方法在不同基准数据集上的性能。

使用方法

使用FreD数据集时，用户可通过设置超参数如`msz_per_channel`、`lr_freq`和`mom_freq`来调整频率表示的学习过程。具体使用方法包括运行提供的脚本文件，如`run_DC_FreD.sh`、`run_DM_FreD.sh`等，以实现不同蒸馏目标下的实验。此外，FreD还支持与其他蒸馏目标结合使用，提供了灵活的参数化方法。

背景与挑战

背景概述

FreD数据集是由Donghyeok Shin、Seungjae Shin和Il-Chul Moon在2023年NeurIPS会议上提出的，旨在解决数据集蒸馏领域中的核心问题。该数据集通过频率域的参数化方法，从大规模原始数据集中蒸馏出小规模的合成数据集。与传统基于空间域的方法不同，FreD利用频率变换优化每个数据实例的频率表示，从而在有限的预算内显著减少合成实例所需的资源。该方法不仅在理论上证明了其有效性，还在多个基准数据集上展示了优越的性能，推动了数据集蒸馏技术的发展。

当前挑战

FreD数据集的构建面临多重挑战。首先，如何在频率域中有效提取和优化数据的关键信息，以确保合成数据集的质量和信息保留度，是一个技术难点。其次，FreD需要与现有的多种数据集蒸馏目标（如梯度匹配、分布匹配和轨迹匹配）兼容，这要求方法具有高度的灵活性和适应性。此外，实验结果的验证和对比分析也需要在多个数据集和不同条件下进行，以确保方法的普适性和鲁棒性。这些挑战共同构成了FreD在实际应用中的复杂性和技术深度。

常用场景

经典使用场景

FreD数据集的经典使用场景主要集中在数据集蒸馏领域，特别是在从大规模原始数据集中提取小型合成数据集的过程中。通过利用频率域的特性，FreD能够有效地优化数据实例的频率表示，从而在有限的计算资源下生成高质量的合成数据集。这种方法特别适用于需要快速训练模型的场景，如实时系统或资源受限的设备。

实际应用

FreD数据集在实际应用中展现出广泛的前景，特别是在需要快速部署模型的场景中。例如，在自动驾驶、医疗诊断和物联网设备中，FreD能够帮助快速生成训练数据，减少数据采集和标注的成本。此外，FreD还在图像分类、目标检测等任务中表现出优异的性能，为实际应用提供了强有力的支持。

衍生相关工作

FreD数据集的提出激发了大量相关研究，特别是在数据集蒸馏和频率域优化领域。许多研究者基于FreD的方法，进一步探索了频率域在数据蒸馏中的应用，提出了多种改进和扩展方案。这些工作不仅验证了FreD的有效性，还为未来的研究提供了丰富的理论和实践基础，推动了数据集蒸馏技术的不断进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集