five

Complex Dataset Distillation (Comp-DD)|数据集蒸馏数据集|图像分类数据集

收藏
arXiv2024-10-23 更新2024-10-24 收录
数据集蒸馏
图像分类
下载链接:
https://github.com/NUS-HPC-AI-Lab/EDF
下载链接
链接失效反馈
资源简介:
Complex Dataset Distillation (Comp-DD)是由新加坡国立大学和卡内基梅隆大学合作创建的数据集,旨在解决复杂场景下的数据集蒸馏问题。该数据集包含从ImageNet-1K中挑选的十六个子集,分为八个简单和八个复杂子集。数据集的大小和复杂性通过Grad-CAM激活图的高激活区域比例来衡量。创建过程中,研究团队通过Grad-CAM激活图来增强合成图像中的关键判别区域。Comp-DD数据集主要应用于图像分类和数据集蒸馏领域,旨在提高复杂场景下数据集蒸馏的性能。
提供机构:
新加坡国立大学, 卡内基梅隆大学, 多伦多大学
创建时间:
2024-10-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Complex Dataset Distillation (Comp-DD) 数据集通过精心挑选 ImageNet-1K 中的十六个子集构建而成,这些子集包括八个简单子集和八个复杂子集。构建过程中,研究团队利用 Grad-CAM 激活图来识别和增强合成图像中的关键判别区域,从而确保在复杂场景中数据集蒸馏的有效性。具体而言,通过 Grad-CAM 激活图动态提取高激活区域,并使用这些区域来重新调整像素梯度,以聚焦于判别区域的学习过程。
特点
Comp-DD 数据集的主要特点在于其针对复杂场景的优化设计。通过强调判别特征,该数据集在合成图像中显著提升了关键判别区域的比例,从而在复杂场景中实现了更高的性能。此外,数据集通过过滤低损失监督信号,减少了常见模式的影响,确保了合成图像的判别特性。这些特点使得 Comp-DD 在处理复杂数据集时表现出色,为数据集蒸馏领域的研究提供了新的基准。
使用方法
使用 Comp-DD 数据集时,研究人员可以采用轨迹匹配算法来提取和注入从真实数据集中提取的模式。具体步骤包括:首先,训练专家轨迹以生成专家参数;然后,在每次蒸馏迭代中,随机选择初始点和目标点,生成学生轨迹并计算轨迹匹配损失;接着,通过 Common Pattern Dropout 模块过滤掉低损失信号,保留高损失信号进行反向传播;最后,使用 Discriminative Area Enhancement 模块动态更新激活图,并根据激活图重新调整合成图像的像素梯度,以增强判别区域的重要性。
背景与挑战
背景概述
Complex Dataset Distillation (Comp-DD) 数据集由新加坡国立大学、卡内基梅隆大学和多伦多大学的研究人员于近期创建,旨在解决复杂场景下的数据集蒸馏问题。该数据集的核心研究问题是如何在复杂数据集中提取和增强关键的判别特征,以提高数据集蒸馏的性能。Comp-DD 数据集通过精心挑选 ImageNet-1K 的十六个子集(八个简单和八个困难)来构建,这些子集的复杂性由 Grad-CAM 激活图的高激活区域比例决定。该数据集的创建标志着在复杂场景下数据集蒸馏研究的重要进展,为相关领域的研究提供了新的基准和挑战。
当前挑战
Comp-DD 数据集面临的挑战主要集中在两个方面。首先,复杂场景下的数据集蒸馏需要解决图像中对象大小和类别无关信息显著变化的问题,这使得传统的蒸馏方法难以达到满意的效果。其次,在数据集构建过程中,如何准确地选择和划分复杂性不同的子集,以及如何在蒸馏过程中有效增强判别特征,都是亟待解决的技术难题。此外,Comp-DD 数据集的创建还面临着计算资源和时间成本的挑战,尤其是在处理大规模数据集时,动态更新激活图和优化合成图像的计算量较大。
常用场景
经典使用场景
在复杂场景中,Complex Dataset Distillation (Comp-DD) 数据集被广泛用于提升数据集蒸馏方法的性能。通过强调合成图像中的判别特征,Comp-DD 数据集使得在复杂数据集如 ImageNet-1K 上的蒸馏效果显著提升。其经典使用场景包括在图像分类任务中,通过蒸馏生成具有高判别性的合成数据集,从而在有限的计算资源下实现高效的模型训练。
解决学术问题
Comp-DD 数据集解决了在复杂场景下数据集蒸馏方法性能不佳的学术问题。传统方法在简单数据集如 CIFAR 和 MNIST 上表现良好,但在复杂数据集上效果显著下降。Comp-DD 通过引入判别特征增强和低损失信号过滤,显著提升了在复杂数据集上的蒸馏效果,推动了数据集蒸馏领域的研究进展。
衍生相关工作
Comp-DD 数据集的提出激发了一系列相关研究工作。例如,基于 Comp-DD 的研究提出了多种数据集蒸馏方法的改进,如通过梯度匹配和轨迹匹配来提升蒸馏效果。此外,Comp-DD 还促进了在复杂数据集上进行数据集蒸馏的基准测试,推动了该领域的标准化和深入研究。相关工作还包括探索不同模型架构下的蒸馏效果,以及在多任务学习和持续学习中的应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录