Distilled Datasets

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/NUS-HPC-AI-Lab/DATM

下载链接

链接失效反馈

官方服务：

资源简介：

通过难度对齐的轨迹匹配实现无损数据集精简，旨在提高合成数据集的大小以实现无损精简。

Achieving lossless dataset reduction through difficulty-aligned trajectory matching, aiming to enhance the size of synthetic datasets for lossless reduction.

创建时间：

2023-09-02

原始信息汇总

数据集概述

数据集名称

Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching

数据集目的

实现无损数据集蒸馏，通过调整合成数据集的大小和生成模式的难度，以避免生成过于简单或过于困难的模式。

数据集特点

首次实现无损数据集蒸馏，在高IPC（数据保持比率）情况下保持有效性。

数据集使用方法

环境配置
- 使用提供的environment.yaml文件创建环境。
- 激活环境：conda activate distillation
生成专家轨迹
- 运行buffer_FTD.py脚本，配置参数如数据集（CIFAR10）、模型（ConvNet）、训练周期等。
执行蒸馏
- 运行DATM.py脚本，使用配置文件xxxx.yaml进行数据集蒸馏。
评估蒸馏数据集
- 使用evaluation.py脚本进行评估，需指定低分辨率数据路径、图像数据路径和标签数据路径。

数据集引用信息

引用格式：

@inproceedings{guo2024lossless, title={Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching}, author={Ziyao Guo and Kai Wang and George Cazenavette and Hui Li and Kaipeng Zhang and Yang You}, year={2024}, booktitle={The Twelfth International Conference on Learning Representations} }

搜集汇总

数据集介绍

构建方式

在构建Distilled Datasets时，研究团队采用了一种创新的方法，即通过难度对齐的轨迹匹配（Difficulty-Aligned Trajectory Matching, DATM）来实现无损数据集蒸馏。该方法的核心在于生成与合成数据集大小相匹配的难度模式，避免生成过于简单或过于复杂的样本。具体而言，团队通过生成专家轨迹并进行蒸馏，确保在高数据保留率（IPC）情况下仍能保持有效性，从而首次实现了无损数据集蒸馏。

特点

Distilled Datasets的主要特点在于其能够实现无损数据集蒸馏，这在以往的方法中是难以实现的。通过难度对齐的轨迹匹配，该数据集在高IPC情况下依然表现出色，且生成的样本难度适中，避免了传统方法中随着IPC增加而性能下降的问题。此外，该数据集的构建方法还结合了TESLA技术，显著降低了VRAM的使用，使得在CIFAR10等数据集上进行大规模蒸馏成为可能。

使用方法

使用Distilled Datasets时，用户首先需创建环境并生成专家轨迹，随后通过执行蒸馏脚本进行数据集的蒸馏。具体操作包括配置环境、生成轨迹、执行蒸馏以及评估蒸馏后的数据集。评估过程提供了简单的脚本，用户可以通过指定路径来评估蒸馏后的数据集。此外，该数据集的代码基于MTT、FTD和TESLA等技术，用户可根据需求进行定制和扩展。

背景与挑战

背景概述

Distilled Datasets数据集由Ziyao Guo等人于2024年提出，旨在通过难度对齐的轨迹匹配实现无损数据集蒸馏。该数据集的核心研究问题是如何在保持数据集大小的同时，确保生成的合成数据集的难度与原始数据集相匹配，从而避免生成过于简单或过于困难的模式。该研究由国际学习表征会议（ICLR 2024）支持，主要研究人员包括Ziyao Guo、Kai Wang等，其工作对数据集蒸馏领域具有重要影响，特别是在高IPC（数据保持率）情况下的有效性。

当前挑战

Distilled Datasets数据集面临的挑战主要集中在如何在高IPC情况下保持蒸馏数据集的有效性。传统方法在增加合成数据集大小时，性能往往不如随机选择，这表明生成模式的难度控制是一个关键问题。此外，构建过程中需要精确控制生成模式的难度，避免过于简单或过于困难的模式，这对算法的设计和实现提出了较高的要求。

常用场景

经典使用场景

在机器学习领域，Distilled Datasets 数据集的经典使用场景主要体现在其用于验证和优化数据集蒸馏技术的效果。通过生成与原始数据集难度相匹配的合成数据，研究人员可以评估不同蒸馏方法在保持数据集信息完整性方面的表现。特别是在高IPC（数据保持率）情况下，该数据集展示了如何通过难度对齐的轨迹匹配实现无损数据集蒸馏，为后续研究提供了基准。

实际应用

在实际应用中，Distilled Datasets 数据集可广泛应用于资源受限的机器学习任务中，如边缘计算和移动设备上的模型训练。通过使用蒸馏后的数据集，可以在减少数据存储和传输成本的同时，保持模型的训练效果。此外，该数据集还可用于数据隐私保护领域，通过生成合成数据来替代原始数据，从而降低数据泄露的风险。

衍生相关工作

基于 Distilled Datasets 数据集，许多相关研究工作得以展开。例如，研究人员提出了多种改进的蒸馏算法，以进一步优化数据集的压缩率和信息保留度。此外，该数据集还激发了关于数据集生成和难度控制的新研究方向，推动了合成数据生成技术的进步。这些衍生工作不仅丰富了数据集蒸馏的理论体系，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集