Complex Dataset Distillation (Comp-DD)

Name: Complex Dataset Distillation (Comp-DD)
Creator: 新加坡国立大学, 卡内基梅隆大学, 多伦多大学
Published: 2024-10-23 01:13:19
License: 暂无描述

arXiv2024-10-23 更新2024-10-24 收录

下载链接：

https://github.com/NUS-HPC-AI-Lab/EDF

下载链接

链接失效反馈

官方服务：

资源简介：

Complex Dataset Distillation (Comp-DD)是由新加坡国立大学和卡内基梅隆大学合作创建的数据集，旨在解决复杂场景下的数据集蒸馏问题。该数据集包含从ImageNet-1K中挑选的十六个子集，分为八个简单和八个复杂子集。数据集的大小和复杂性通过Grad-CAM激活图的高激活区域比例来衡量。创建过程中，研究团队通过Grad-CAM激活图来增强合成图像中的关键判别区域。Comp-DD数据集主要应用于图像分类和数据集蒸馏领域，旨在提高复杂场景下数据集蒸馏的性能。

Complex Dataset Distillation (Comp-DD) is a dataset jointly created by the National University of Singapore and Carnegie Mellon University, aiming to solve the dataset distillation problem in complex scenarios. This dataset comprises 16 subsets selected from ImageNet-1K, which are categorized into 8 simple subsets and 8 complex subsets. The scale and complexity of the dataset are quantified by the proportion of highly activated regions in Grad-CAM activation maps. During the creation process, the research team leveraged Grad-CAM activation maps to enhance the key discriminative regions in synthetic images. The Comp-DD dataset is mainly applied in the fields of image classification and dataset distillation, with the goal of improving the performance of dataset distillation in complex scenarios.

提供机构：

新加坡国立大学, 卡内基梅隆大学, 多伦多大学

创建时间：

2024-10-23

搜集汇总

数据集介绍

构建方式

Complex Dataset Distillation (Comp-DD) 数据集通过精心挑选 ImageNet-1K 中的十六个子集构建而成，这些子集包括八个简单子集和八个复杂子集。构建过程中，研究团队利用 Grad-CAM 激活图来识别和增强合成图像中的关键判别区域，从而确保在复杂场景中数据集蒸馏的有效性。具体而言，通过 Grad-CAM 激活图动态提取高激活区域，并使用这些区域来重新调整像素梯度，以聚焦于判别区域的学习过程。

特点

Comp-DD 数据集的主要特点在于其针对复杂场景的优化设计。通过强调判别特征，该数据集在合成图像中显著提升了关键判别区域的比例，从而在复杂场景中实现了更高的性能。此外，数据集通过过滤低损失监督信号，减少了常见模式的影响，确保了合成图像的判别特性。这些特点使得 Comp-DD 在处理复杂数据集时表现出色，为数据集蒸馏领域的研究提供了新的基准。

使用方法

使用 Comp-DD 数据集时，研究人员可以采用轨迹匹配算法来提取和注入从真实数据集中提取的模式。具体步骤包括：首先，训练专家轨迹以生成专家参数；然后，在每次蒸馏迭代中，随机选择初始点和目标点，生成学生轨迹并计算轨迹匹配损失；接着，通过 Common Pattern Dropout 模块过滤掉低损失信号，保留高损失信号进行反向传播；最后，使用 Discriminative Area Enhancement 模块动态更新激活图，并根据激活图重新调整合成图像的像素梯度，以增强判别区域的重要性。

背景与挑战

背景概述

Complex Dataset Distillation (Comp-DD) 数据集由新加坡国立大学、卡内基梅隆大学和多伦多大学的研究人员于近期创建，旨在解决复杂场景下的数据集蒸馏问题。该数据集的核心研究问题是如何在复杂数据集中提取和增强关键的判别特征，以提高数据集蒸馏的性能。Comp-DD 数据集通过精心挑选 ImageNet-1K 的十六个子集（八个简单和八个困难）来构建，这些子集的复杂性由 Grad-CAM 激活图的高激活区域比例决定。该数据集的创建标志着在复杂场景下数据集蒸馏研究的重要进展，为相关领域的研究提供了新的基准和挑战。

当前挑战

Comp-DD 数据集面临的挑战主要集中在两个方面。首先，复杂场景下的数据集蒸馏需要解决图像中对象大小和类别无关信息显著变化的问题，这使得传统的蒸馏方法难以达到满意的效果。其次，在数据集构建过程中，如何准确地选择和划分复杂性不同的子集，以及如何在蒸馏过程中有效增强判别特征，都是亟待解决的技术难题。此外，Comp-DD 数据集的创建还面临着计算资源和时间成本的挑战，尤其是在处理大规模数据集时，动态更新激活图和优化合成图像的计算量较大。

常用场景

经典使用场景

在复杂场景中，Complex Dataset Distillation (Comp-DD) 数据集被广泛用于提升数据集蒸馏方法的性能。通过强调合成图像中的判别特征，Comp-DD 数据集使得在复杂数据集如 ImageNet-1K 上的蒸馏效果显著提升。其经典使用场景包括在图像分类任务中，通过蒸馏生成具有高判别性的合成数据集，从而在有限的计算资源下实现高效的模型训练。

解决学术问题

Comp-DD 数据集解决了在复杂场景下数据集蒸馏方法性能不佳的学术问题。传统方法在简单数据集如 CIFAR 和 MNIST 上表现良好，但在复杂数据集上效果显著下降。Comp-DD 通过引入判别特征增强和低损失信号过滤，显著提升了在复杂数据集上的蒸馏效果，推动了数据集蒸馏领域的研究进展。

衍生相关工作

Comp-DD 数据集的提出激发了一系列相关研究工作。例如，基于 Comp-DD 的研究提出了多种数据集蒸馏方法的改进，如通过梯度匹配和轨迹匹配来提升蒸馏效果。此外，Comp-DD 还促进了在复杂数据集上进行数据集蒸馏的基准测试，推动了该领域的标准化和深入研究。相关工作还包括探索不同模型架构下的蒸馏效果，以及在多任务学习和持续学习中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集