MiniImagenet, CUB, IN6k
收藏github2023-12-05 更新2024-05-31 收录
下载链接:
https://github.com/facebookresearch/fewshotDatasetDesign
下载链接
链接失效反馈官方服务:
资源简介:
MiniImagenet是一个包含100个类别,每个类别600张图片的few-shot学习基准,用于训练、验证和测试。CUB是一个包含200个鸟类类别,用于few-shot学习的基准。IN6k是从IN22k中筛选出的6000个类别,用于few-shot学习的数据集。
MiniImagenet is a few-shot learning benchmark comprising 100 categories, with 600 images per category, designed for training, validation, and testing. CUB is a benchmark for few-shot learning that includes 200 bird species categories. IN6k is a dataset derived from IN22k, consisting of 6000 categories, specifically curated for few-shot learning.
创建时间:
2020-08-05
原始信息汇总
数据集概述
1. MiniImagenet
- 类别数量: 100
- 每类图像数量: 600
- 训练/验证/测试分割: 64/16/20
- 下载命令:
cd data; bash download_miniimagenet.sh
2. CUB
- 类别数量: 200
- 训练/验证/测试分割: 100/50/50
- 训练图像数量: 5,885
- 验证图像数量: 2,950
- 测试图像数量: 2,953
- 下载命令:
cd data; bash download_cub.sh
3. IN6k dataset
- 来源: 从IN22k清理并选择最大的6000个类别,排除IN1k类别
- 类别信息: 提供JSON文件包含所有类别和样本名称
- 特定样本信息: 提供JSON文件包含与CUB测试类别相关的IN6k样本
数据集使用
训练配置
- 分类器类型: 余弦分类器(Cosine Classifier)
- 评估基准: miniIN, CUB
- 训练数据集: miniIN, CUB
- 模型架构: WideResNet, ResNet18, 等
实验与结果
- 数据集设计对少样本学习性能的影响: 训练类别与测试类别的相似性显著影响性能
- 类别数量与图像数量的权衡: 在固定数据集预算下,类别数量与图像数量的平衡对性能至关重要
- 重新定义类别: 通过分拆或合并类别,根据初始类别与图像数量的平衡,可以提升少样本学习性能
搜集汇总
数据集介绍

构建方式
MiniImagenet、CUB和IN6k数据集的构建方式体现了少样本学习领域的前沿设计理念。MiniImagenet数据集包含100个类别,每个类别包含600张图像,分为训练、验证和测试集。CUB数据集则专注于鸟类分类,包含200个类别,每个类别包含约30张图像,同样分为训练、验证和测试集。IN6k数据集则从IN22k数据集中筛选出6000个类别,排除了IN1k类别,并通过自动去重和类别选择优化了数据集的结构。这些数据集的构建均基于对类别丰富性和分类任务难度的深入考量,旨在为少样本学习提供更具挑战性的基准。
特点
MiniImagenet、CUB和IN6k数据集的特点在于其多样性和复杂性。MiniImagenet以其广泛的类别覆盖和均衡的图像分布著称,适用于少样本学习的基础研究。CUB数据集则专注于细粒度分类任务,提供了丰富的鸟类图像,适合研究类别间细微差异的分类问题。IN6k数据集通过大规模类别筛选和优化,提供了更具挑战性的分类任务,能够有效评估模型在复杂场景下的泛化能力。这些数据集的设计均体现了对类别相似性、数据规模和任务难度的精细平衡,为少样本学习研究提供了高质量的实验平台。
使用方法
MiniImagenet、CUB和IN6k数据集的使用方法灵活多样,适用于多种少样本学习任务。用户可以通过提供的脚本快速下载和加载数据集,并利用预定义的训练和评估流程进行实验。例如,使用余弦分类器(Cosine Classifier)进行训练时,用户可以选择不同的基准数据集(如MiniImagenet或CUB)和模型架构(如ResNet18或WideResNet)。此外,数据集还支持自定义训练和评估流程,用户可以根据研究需求调整训练类型、数据集和模型架构。通过提供的实验脚本和工具,用户可以轻松复现论文中的实验结果,并进一步探索数据集设计对少样本学习性能的影响。
背景与挑战
背景概述
MiniImagenet、CUB和IN6k数据集是用于少样本学习(Few-Shot Learning)研究的重要基准数据集。MiniImagenet由100个类别组成,每个类别包含600张图像,广泛用于图像分类任务。CUB数据集则专注于鸟类分类,包含200个类别,每个类别有数十至数百张图像。IN6k数据集则是从ImageNet-22k中筛选出的6000个类别,旨在为少样本学习提供更丰富的类别多样性。这些数据集的创建时间可追溯至2016年,主要研究人员包括Othman Sbai、Camille Couprie和Mathieu Aubry等,他们的研究揭示了基础数据集设计对少样本分类性能的重要影响。这些数据集不仅推动了少样本学习领域的发展,还为研究者提供了评估模型性能的标准基准。
当前挑战
MiniImagenet、CUB和IN6k数据集在少样本学习领域面临多重挑战。首先,少样本学习的核心问题在于如何在有限样本下实现高效分类,这对模型的泛化能力提出了极高要求。其次,数据集的构建过程中,如何平衡类别数量与每类样本数量是一个关键挑战。例如,IN6k数据集从ImageNet-22k中筛选出6000个类别,需避免类别重复并确保类别多样性。此外,数据集的标注质量直接影响模型性能,而CUB数据集中的鸟类图像标注需要高度精确的领域知识。最后,如何设计更具挑战性的分类任务以提升模型的鲁棒性,也是研究者需要解决的重要问题。这些挑战共同推动了少样本学习技术的不断进步。
常用场景
经典使用场景
在少样本学习领域,MiniImagenet、CUB和IN6k数据集被广泛应用于评估模型在有限标注数据下的泛化能力。这些数据集通过提供多样化的类别和图像,帮助研究者设计并验证少样本分类算法。例如,MiniImagenet常被用于测试模型在64个训练类别、16个验证类别和20个测试类别上的表现,而CUB则专注于鸟类图像的细粒度分类任务。IN6k数据集则通过其大规模类别覆盖,为研究提供了更丰富的实验场景。
衍生相关工作
基于这些数据集,研究者们提出了许多经典的少样本学习算法。例如,Matching Networks和Prototypical Networks等模型在MiniImagenet上进行了广泛验证,展示了其在少样本分类任务中的优越性能。此外,CUB数据集上的细粒度分类研究推动了如Closer Look等工作的进展,进一步提升了模型在复杂分类任务中的表现。这些工作不仅推动了少样本学习领域的发展,也为其他相关领域提供了重要的参考。
数据集最近研究
最新研究方向
近年来,MiniImagenet、CUB和IN6k数据集在小样本学习领域的研究方向主要集中在数据集设计对分类性能的影响上。研究表明,基础数据集的设计对小样本分类性能具有显著影响,尤其是在类别的丰富性和类别间的相似性方面。通过重新定义类别标签或利用更复杂的类别结构,可以显著提升分类任务的难度和模型的泛化能力。此外,研究还揭示了训练数据与测试数据之间的相似性对模型性能的关键作用,以及在不同数据集预算下类别数量与图像数量之间的权衡。这些发现为未来小样本学习算法的优化提供了新的思路,尤其是在数据集构建和评估策略方面。
以上内容由遇见数据集搜集并总结生成



