CUB-200, mini-ImageNet, DTD, Flowers-102, CIFAR-100

github2024-12-14 更新2024-12-16 收录

下载链接：

https://github.com/1170300714/CBS

下载链接

链接失效反馈

官方服务：

资源简介：

CUB-200是一个鸟类图像数据集，包含200种鸟类；mini-ImageNet是一个小型的ImageNet数据集，用于图像分类任务；DTD是一个纹理数据集，包含5640张图像；Flowers-102是一个花卉图像数据集，包含102种花卉；CIFAR-100是一个图像分类数据集，包含100个类别的图像。

CUB-200 is a bird image dataset containing 200 bird species; mini-ImageNet is a small-scale ImageNet dataset for image classification tasks; DTD is a texture dataset with 5,640 images; Flowers-102 is a flower image dataset encompassing 102 flower categories; CIFAR-100 is an image classification dataset comprising images from 100 classes.

创建时间：

2024-12-10

原始信息汇总

数据集概述

数据集描述

该数据集用于Active Class-Incremental Learning (ACIL)研究，旨在从大规模未标注数据池中选择最具信息量的样本，以有效训练增量学习器。数据集包括以下几个部分：

CUB-200
mini-ImageNet
DTD
Flowers-102
CIFAR-100（自动下载）

数据集下载

数据集文件已上传至Google Drive，用户可以下载并解压使用。

数据集使用

建议使用软链接部署数据集。用户可以将下载的数据集解压到任意目录，然后从LP-DiF的根目录创建符号链接。

bash cd CBS_LP-DiF mkdir data cd data ln -s /path/to/cub200 ./CUB_200_2011 ln -s /path/to/miniImageNet ./miniimagenet ln -s /path/to/dtd ./dtd ln -s /path/to/Flowers102 ./Flowers102 cd ..

数据集训练

用户可以通过运行提供的脚本来训练模型。例如：

在DTD数据集上运行CBS + 未标注数据，设置B=100（相当于5轮）： bash bash start_scripts/acil_scripts/start_dtd_wo_base_our_acil_distribution_kmeans_random_discard_greedy_add_pseudo.sh 5
在Flowers102数据集上运行CBS，设置B=20（相当于1轮）： bash bash start_scripts/acil_scripts/start_flowers_wo_base_our_acil_distribution_kmeans_random_discard_greedy.sh 1

在start_scripts/acil_scripts目录下，用户可以找到更多针对不同数据集和不同主动学习方法的启动脚本。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模未标注数据的特征聚类与选择策略。具体而言，研究者首先将所有未标注图像的特征进行聚类，形成多个特征组。随后，针对每个聚类组，采用贪婪选择策略，确保所选样本的特征分布与整个未标注数据集的特征分布高度匹配。这一过程旨在通过类平衡选择（CBS）策略，从大规模未标注数据中筛选出最具信息量的样本，以支持增量学习模型的有效训练。

特点

该数据集的显著特点在于其类平衡性和信息量的高度统一。通过CBS策略，数据集在样本选择过程中不仅考虑了信息的丰富性，还确保了各类样本的均衡分布，从而避免了传统主动学习中常见的类不平衡问题。此外，该数据集涵盖了多个领域的多样化数据，包括CUB-200、mini-ImageNet、DTD、Flowers-102和CIFAR-100，为跨领域研究提供了丰富的实验基础。

使用方法

使用该数据集时，建议通过软链接的方式将数据部署到实验环境中。用户需先将下载的数据集解压至任意目录，然后通过创建符号链接将其链接到LP-DiF项目的根目录下。具体的训练过程可通过运行提供的启动脚本实现，例如在DTD数据集上运行CBS策略的训练脚本。此外，用户可根据实验需求选择不同的启动脚本，以适应不同的数据集和算法配置。

背景与挑战

背景概述

CUB-200, mini-ImageNet, DTD, Flowers-102, 和 CIFAR-100 数据集是由哈尔滨工业大学、旷视科技和A*STAR等机构的研究人员共同开发，旨在支持主动类增量学习（Active Class-Incremental Learning, ACIL）的研究。这些数据集的创建时间可追溯至2024年，主要研究人员包括Zitong Huang、Ze Chen等。核心研究问题是如何从大规模未标注数据中选择最具信息量的样本，以有效训练增量学习模型，从而最大化模型性能。这些数据集的引入对图像分类和增量学习领域具有重要影响，尤其是在处理类别不平衡和有限标注资源的情况下。

当前挑战

这些数据集在构建和应用过程中面临多项挑战。首先，如何在未标注的大规模数据中准确识别并标注最具信息量的样本，是一个技术难题。其次，类别不平衡问题在主动学习中尤为突出，限制了增量学习模型的能力。此外，数据集的多样性和复杂性，如CUB-200的细粒度分类和Flowers-102的高分辨率图像，增加了模型训练的难度。最后，如何在不同的数据集上实现高效的跨领域迁移学习，也是一个亟待解决的问题。

常用场景

经典使用场景

CUB-200、mini-ImageNet、DTD、Flowers-102和CIFAR-100数据集在主动类增量学习（ACIL）中展现了其经典应用场景。这些数据集被广泛用于评估和优化主动学习算法，特别是在从大规模未标注数据池中选择最具信息量的样本以训练增量学习模型。通过这些数据集，研究者能够验证其提出的类平衡选择（CBS）策略在不同数据分布下的有效性，从而提升模型的泛化能力和学习效率。

实际应用

在实际应用中，这些数据集为计算机视觉领域的诸多任务提供了坚实的基础。例如，在图像分类、目标检测和语义分割等任务中，通过利用这些数据集进行模型训练，能够显著提升模型在处理新类别数据时的适应性和准确性。此外，这些数据集还被广泛应用于自动驾驶、医疗影像分析和智能监控等实际场景，为相关领域的技术进步提供了重要支持。

衍生相关工作

基于这些数据集，研究者们衍生了一系列经典工作。例如，针对CUB-200数据集，研究者们提出了多种细粒度图像分类算法；在mini-ImageNet数据集上，元学习方法得到了广泛应用；DTD数据集则推动了纹理识别技术的发展。此外，Flowers-102和CIFAR-100数据集也为图像识别和深度学习模型的优化提供了丰富的实验平台，促进了相关领域的技术进步和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集