notbirb/cifar100

Name: notbirb/cifar100
Creator: notbirb
Published: 2026-05-02 03:26:54
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/notbirb/cifar100

下载链接

链接失效反馈

官方服务：

资源简介：

CIFAR-100数据集包含60,000张32x32的彩色图像，分为100个类别，每个类别有600张图像。其中，每个类别有500张训练图像和100张测试图像，总计50,000张训练图像和10,000张测试图像。这100个类别进一步分为20个超类。每张图像有两个标签：细粒度标签（实际类别）和粗粒度标签（超类）。该数据集主要用于图像分类任务。

The CIFAR-100 dataset consists of 60000 32x32 colour images in 100 classes, with 600 images per class. There are 500 training images and 100 testing images per class. There are 50000 training images and 10000 test images. The 100 classes are grouped into 20 superclasses. There are two labels per image - fine label (actual class) and coarse label (superclass).

提供机构：

notbirb

搜集汇总

数据集介绍

构建方式

CIFAR-100数据集源自于80 Million Tiny Images数据集，由Alex Krizhevsky等人精心筛选与标注而成。该数据集共包含60000张32x32像素的彩色图像，均匀分布于100个细粒度类别中，每个类别含600张图像。为了增加层次结构，这些类别进一步被归并为20个超类，每个图像因此被赋予双重标签：细标签（fine_label）标识具体类别，粗标签（coarse_label）标识所属超类。数据划分为训练集与测试集，分别包含50000张和10000张图像，每类训练与测试样本比例为5:1，确保了评估的均衡性。

特点

CIFAR-100数据集以其精细的类别划分而著称，覆盖了从动物、植物到日常物品等多样化的现实世界对象，其100个细类与20个超类的层次化标签设计，为图像分类研究提供了从粗粒度到细粒度的多层级挑战。图像尺寸虽小（32x32分辨率），却蕴含丰富的视觉信息，加之统一的图像格式与标准化处理，使其成为评估深度学习模型性能的理想基准。数据集规模适中，既避免了大规模数据带来的计算开销，又足以支撑复杂模型的训练与泛化能力测试。

使用方法

使用CIFAR-100数据集时，可通过Hugging Face的datasets库便捷加载。首先安装datasets库，随后调用load_dataset("cifar100")即可获取训练与测试集。每个样本以字典形式呈现，包含'img'（PIL图像对象）、'fine_label'（整型细标签）与'coarse_label'（整型粗标签）。在图像分类任务中，通常将'fine_label'作为监督信号，输入模型进行训练与评估。由于图像尺寸较小，可直接用于卷积神经网络，或通过数据增强（如随机裁剪、翻转）提升模型鲁棒性。数据集支持PyTorch、TensorFlow等多种框架的适配，便于集成到现有工作流中。

背景与挑战

背景概述

CIFAR-100数据集由Alex Krizhevsky于2009年在多伦多大学创建，源自其关于从微小图像中学习多层特征的研究工作。该数据集包含60000张32×32像素的彩色图像，划分为100个细粒度类别，并进一步归入20个超类，每个类别提供600张样本。作为图像分类领域的经典基准，CIFAR-100因其适中的规模和精细的类别划分，成为评估深度学习模型（尤其是卷积神经网络）性能的重要工具，推动了小样本学习、细粒度分类等领域的发展。

当前挑战

在领域问题层面，CIFAR-100聚焦于细粒度图像分类，面临类别间视觉相似度高、类内差异显著等挑战，例如区分不同品种的哺乳动物或交通工具，要求模型具备敏锐的判别能力。在构建过程中，数据来源于80 Million Tiny Images数据集，但受限于32×32像素的低分辨率，导致图像细节丢失，增加了标注难度；同时，部分类别边界模糊，可能引入噪声标签，进一步考验算法的鲁棒性与泛化能力。

常用场景

经典使用场景

CIFAR-100数据集作为计算机视觉领域经典的细粒度图像分类基准，广泛用于评估深度学习模型在包含100个类别、每类仅600张32×32低分辨率彩色图像上的分类性能。它要求模型从有限像素中精准区分如苹果与橘子、猫与狗等高度相似的视觉概念，是检验模型特征提取与泛化能力的理想测试平台。研究者常将其与CIFAR-10配合使用，以验证算法在增加类别复杂度时的鲁棒性。

衍生相关工作

围绕CIFAR-100衍生出大量开创性工作，包括深度残差网络（ResNet）的发轫之作将其作为核心验证基准，并启发DenseNet、WideResNet等架构的诞生。数据增强策略方面，CutMix与AutoAugment等经典方法通过在该数据集上的超额表现推动了正则化技术的革新。此外，对比学习框架如SimCLR与BYOL亦以其评估无监督表示学习性能，巩固了CIFAR-100在自监督学习领域的基准地位。

数据集最近研究