MiniImagenet, CUB, IN6k

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/fewshotDatasetDesign

下载链接

链接失效反馈

官方服务：

资源简介：

MiniImagenet是一个包含100个类别，每个类别600张图片的few-shot学习基准，用于训练、验证和测试。CUB是一个包含200个鸟类类别，用于few-shot学习的基准。IN6k是从IN22k中筛选出的6000个类别，用于few-shot学习的数据集。

MiniImagenet is a few-shot learning benchmark comprising 100 categories, with 600 images per category, designed for training, validation, and testing. CUB is a benchmark for few-shot learning that includes 200 bird species categories. IN6k is a dataset derived from IN22k, consisting of 6000 categories, specifically curated for few-shot learning.

创建时间：

2020-08-05

原始信息汇总

数据集概述

1. MiniImagenet

类别数量: 100
每类图像数量: 600
训练/验证/测试分割: 64/16/20
下载命令: cd data; bash download_miniimagenet.sh

2. CUB

类别数量: 200
训练/验证/测试分割: 100/50/50
训练图像数量: 5,885
验证图像数量: 2,950
测试图像数量: 2,953
下载命令: cd data; bash download_cub.sh

3. IN6k dataset

来源: 从IN22k清理并选择最大的6000个类别，排除IN1k类别
类别信息: 提供JSON文件包含所有类别和样本名称
特定样本信息: 提供JSON文件包含与CUB测试类别相关的IN6k样本

数据集使用

训练配置

分类器类型: 余弦分类器（Cosine Classifier）
评估基准: miniIN, CUB
训练数据集: miniIN, CUB
模型架构: WideResNet, ResNet18, 等

实验与结果

数据集设计对少样本学习性能的影响: 训练类别与测试类别的相似性显著影响性能
类别数量与图像数量的权衡: 在固定数据集预算下，类别数量与图像数量的平衡对性能至关重要
重新定义类别: 通过分拆或合并类别，根据初始类别与图像数量的平衡，可以提升少样本学习性能

搜集汇总

数据集介绍

构建方式

MiniImagenet、CUB和IN6k数据集的构建方式体现了少样本学习领域的前沿设计理念。MiniImagenet数据集包含100个类别，每个类别包含600张图像，分为训练、验证和测试集。CUB数据集则专注于鸟类分类，包含200个类别，每个类别包含约30张图像，同样分为训练、验证和测试集。IN6k数据集则从IN22k数据集中筛选出6000个类别，排除了IN1k类别，并通过自动去重和类别选择优化了数据集的结构。这些数据集的构建均基于对类别丰富性和分类任务难度的深入考量，旨在为少样本学习提供更具挑战性的基准。

特点

MiniImagenet、CUB和IN6k数据集的特点在于其多样性和复杂性。MiniImagenet以其广泛的类别覆盖和均衡的图像分布著称，适用于少样本学习的基础研究。CUB数据集则专注于细粒度分类任务，提供了丰富的鸟类图像，适合研究类别间细微差异的分类问题。IN6k数据集通过大规模类别筛选和优化，提供了更具挑战性的分类任务，能够有效评估模型在复杂场景下的泛化能力。这些数据集的设计均体现了对类别相似性、数据规模和任务难度的精细平衡，为少样本学习研究提供了高质量的实验平台。

使用方法

MiniImagenet、CUB和IN6k数据集的使用方法灵活多样，适用于多种少样本学习任务。用户可以通过提供的脚本快速下载和加载数据集，并利用预定义的训练和评估流程进行实验。例如，使用余弦分类器（Cosine Classifier）进行训练时，用户可以选择不同的基准数据集（如MiniImagenet或CUB）和模型架构（如ResNet18或WideResNet）。此外，数据集还支持自定义训练和评估流程，用户可以根据研究需求调整训练类型、数据集和模型架构。通过提供的实验脚本和工具，用户可以轻松复现论文中的实验结果，并进一步探索数据集设计对少样本学习性能的影响。

背景与挑战

背景概述

MiniImagenet、CUB和IN6k数据集是用于少样本学习（Few-Shot Learning）研究的重要基准数据集。MiniImagenet由100个类别组成，每个类别包含600张图像，广泛用于图像分类任务。CUB数据集则专注于鸟类分类，包含200个类别，每个类别有数十至数百张图像。IN6k数据集则是从ImageNet-22k中筛选出的6000个类别，旨在为少样本学习提供更丰富的类别多样性。这些数据集的创建时间可追溯至2016年，主要研究人员包括Othman Sbai、Camille Couprie和Mathieu Aubry等，他们的研究揭示了基础数据集设计对少样本分类性能的重要影响。这些数据集不仅推动了少样本学习领域的发展，还为研究者提供了评估模型性能的标准基准。

当前挑战

MiniImagenet、CUB和IN6k数据集在少样本学习领域面临多重挑战。首先，少样本学习的核心问题在于如何在有限样本下实现高效分类，这对模型的泛化能力提出了极高要求。其次，数据集的构建过程中，如何平衡类别数量与每类样本数量是一个关键挑战。例如，IN6k数据集从ImageNet-22k中筛选出6000个类别，需避免类别重复并确保类别多样性。此外，数据集的标注质量直接影响模型性能，而CUB数据集中的鸟类图像标注需要高度精确的领域知识。最后，如何设计更具挑战性的分类任务以提升模型的鲁棒性，也是研究者需要解决的重要问题。这些挑战共同推动了少样本学习技术的不断进步。

常用场景

经典使用场景

在少样本学习领域，MiniImagenet、CUB和IN6k数据集被广泛应用于评估模型在有限标注数据下的泛化能力。这些数据集通过提供多样化的类别和图像，帮助研究者设计并验证少样本分类算法。例如，MiniImagenet常被用于测试模型在64个训练类别、16个验证类别和20个测试类别上的表现，而CUB则专注于鸟类图像的细粒度分类任务。IN6k数据集则通过其大规模类别覆盖，为研究提供了更丰富的实验场景。

衍生相关工作

基于这些数据集，研究者们提出了许多经典的少样本学习算法。例如，Matching Networks和Prototypical Networks等模型在MiniImagenet上进行了广泛验证，展示了其在少样本分类任务中的优越性能。此外，CUB数据集上的细粒度分类研究推动了如Closer Look等工作的进展，进一步提升了模型在复杂分类任务中的表现。这些工作不仅推动了少样本学习领域的发展，也为其他相关领域提供了重要的参考。

数据集最近研究