CIFAR-100 和 Tiny ImageNet

github2024-07-15 更新2024-07-16 收录

下载链接：

https://github.com/DataDistillation/ECCV2024-Dataset-Distillation-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于数据压缩挑战的评估代码，评估提交模型在CIFAR-100和Tiny ImageNet数据集上的性能。测试数据集遵循CIFAR-100和Tiny ImageNet的标准归一化技术。

This repository contains evaluation code for the data compression challenge, designed to assess the performance of submitted models on the CIFAR-100 and Tiny ImageNet datasets. The test datasets adopt the standard normalization techniques specified for CIFAR-100 and Tiny ImageNet.

创建时间：

2024-07-15

原始信息汇总

ECCV2024-Dataset-Distillation-Challenge

数据集概述

评估数据集: CIFAR-100 和 Tiny ImageNet
评估硬件: NVidia 4090

数据下载

样本提交数据: sample_submission.zip
测试数据集: reference_data.zip

数据预处理

标准化: 数据在蒸馏前需要进行标准化处理
- CIFAR100:
  - 均值: [0.5071, 0.4866, 0.4409]
  - 标准差: [0.2673, 0.2564, 0.2762]
- TinyImagenet:
  - 均值: [0.485, 0.456, 0.406]
  - 标准差: [0.229, 0.224, 0.225]

使用说明 (Track 1)

文件结构: 遵循样本提交数据的层次结构
测试数据: 解压 reference_data.zip 并创建文件夹结构 ./reference_data/{cifar100|tinyimagenet}_test.pt
样本提交数据: 解压 sample_submission.zip 并创建文件夹结构 ./sample_submission/{cifar100|tinyimagenet}.pt
评估命令:
- 评估自定义数据: python evaluate.py --submit_dir {path-to-your-data}
- 评估样本数据: python evaluate.py --submit_dir ./sample_submission/

脚本说明

evaluate.py:
- 加载提交文件中的蒸馏训练数据
- 加载参考文件中的测试数据和标签
- 定义用于分类的简单卷积神经网络 (CNN)
- 在蒸馏数据上训练 CNN
- 在测试数据上评估训练好的模型
- 计算并输出三次运行的平均准确率

故障排除

确保输入目录结构符合预期格式
验证 .pt 文件包含预期数据且未损坏
确保安装了兼容版本的 PyTorch
确保数据标准化

搜集汇总

数据集介绍

构建方式

CIFAR-100 和 Tiny ImageNet 数据集的构建基于图像分类任务的标准实践。CIFAR-100 包含100个类别，每个类别有600张32x32像素的彩色图像，而Tiny ImageNet则包含200个类别，每个类别有500张64x64像素的彩色图像。这些数据集通过随机抽样和标准化处理，确保了数据的质量和一致性。标准化过程采用了特定的均值和标准差，分别为CIFAR-100的[0.5071, 0.4866, 0.4409]和[0.2673, 0.2564, 0.2762]，以及Tiny ImageNet的[0.485, 0.456, 0.406]和[0.229, 0.224, 0.225]。

特点

CIFAR-100 和 Tiny ImageNet 数据集的主要特点在于其多样性和标准化处理。CIFAR-100 提供了100个类别的多样化图像，适合于细粒度的分类任务。Tiny ImageNet 则通过200个类别的图像，提供了更高分辨率的图像数据，适合于更复杂的图像识别任务。两者的标准化处理确保了数据在深度学习模型中的有效性和一致性，使其成为评估和训练图像分类模型的理想选择。

使用方法

使用CIFAR-100 和 Tiny ImageNet 数据集时，首先需下载并解压相应的数据文件。确保数据按照指定的目录结构进行组织，并进行预标准化处理。随后，通过运行`evaluate.py`脚本，加载蒸馏后的训练数据和测试数据，定义并训练卷积神经网络（CNN）模型，最终评估模型在测试数据上的表现。脚本会输出平均准确率，帮助用户评估模型的性能。

背景与挑战

背景概述

CIFAR-100和Tiny ImageNet数据集是计算机视觉领域中广泛使用的基准数据集，主要用于图像分类任务。CIFAR-100由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton于2009年创建，包含100个类别，每个类别有600张32x32像素的彩色图像。Tiny ImageNet则是ImageNet的一个子集，包含200个类别，每个类别有500张64x64像素的彩色图像。这些数据集在深度学习研究中具有重要地位，为研究人员提供了丰富的图像数据，以评估和改进图像分类算法的性能。

当前挑战

尽管CIFAR-100和Tiny ImageNet数据集在图像分类研究中具有广泛应用，但在数据集的构建和使用过程中仍面临诸多挑战。首先，数据集的规模和复杂性要求高效的存储和处理技术。其次，图像的多样性和类别间的细微差异增加了模型训练的难度。此外，数据集的标准化处理和预处理步骤的精确性对模型性能有显著影响，任何偏差都可能导致模型性能的下降。最后，数据集的评估方法需要确保公平性和一致性，以准确衡量不同模型的表现。

常用场景

经典使用场景

CIFAR-100 和 Tiny ImageNet 数据集在计算机视觉领域中被广泛用于图像分类任务的模型训练与评估。这些数据集的经典使用场景包括：通过训练卷积神经网络（CNN）来识别和分类图像中的对象。研究者们利用这些数据集来验证和比较不同深度学习模型的性能，特别是在图像分类任务中的准确性和泛化能力。

解决学术问题

CIFAR-100 和 Tiny ImageNet 数据集解决了计算机视觉领域中图像分类模型的训练和评估问题。这些数据集为研究者提供了一个标准化的基准，用于评估和比较不同算法的性能。通过这些数据集，研究者能够深入探讨模型在不同类别和复杂度图像上的表现，从而推动图像分类技术的发展和优化。

衍生相关工作

基于 CIFAR-100 和 Tiny ImageNet 数据集，研究者们开发了多种图像分类和数据压缩技术。例如，数据集蒸馏（Dataset Distillation）技术通过压缩数据集，减少训练时间和计算资源的需求，同时保持模型的性能。这些衍生工作不仅提升了数据集的使用效率，还推动了计算机视觉领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集