CIFAR-10

arXiv2024-06-19 更新2024-06-24 收录

下载链接：

https://github.com/BjoernNieth/LS-Dataset-pruning-in-AT

下载链接

链接失效反馈

官方服务：

资源简介：

CIFAR-10数据集是由弗里德里希-亚历山大大学埃尔兰根-纽伦堡和慕尼黑工业大学创建的，包含200万张合成CIFAR-10图像，用于对抗训练研究。该数据集通过从500万张合成图像中抽样并保持原始类别平衡来创建。数据集的创建过程涉及使用动态不确定性（DU）方法来量化每个样本的不确定性，并通过k-最近邻搜索进行数据重要性外推。该数据集主要应用于提高深度学习模型对抗性攻击的鲁棒性，解决模型在面对微小、不可察觉攻击时的脆弱性问题。

The CIFAR-10 dataset was developed by Friedrich-Alexander-Universität Erlangen-Nürnberg and Technical University of Munich. It contains 2 million synthetic CIFAR-10 images for adversarial training research. The dataset is created by sampling from 5 million synthetic images while maintaining the original class balance. The dataset creation process employs the dynamic uncertainty (DU) method to quantify the uncertainty of each sample, and conducts data importance extrapolation via k-nearest neighbor search. This dataset is primarily applied to improve the robustness of deep learning models against adversarial attacks, addressing the vulnerability of models when facing subtle, imperceptible adversarial attacks.

提供机构：

弗里德里希-亚历山大大学埃尔兰根-纽伦堡慕尼黑工业大学

创建时间：

2024-06-19

原始信息汇总

数据集概述

项目结构

core: 包含项目的源代码。
data_files: 存储实验数据文件，代码会自动下载CIFAR-10数据集。
- dynamic_uncertainty: 存储计算的动态不确定性得分。
results: 存储实验结果。
train_main.py: 用于运行实验的训练脚本。
extrapolate.py: 用于KNN外推的脚本。

实验复现

命令示例: bash python ./train_main.py --epochs=400 --dataset=cifar10 --prune-percentage=0.25 --use-adversarial-predictions=True --early-stop-diff=30 --resume-training=False --batch-size=512 --run-name=cifar10_25%PruningAdversarial --only-generated=False --tau=0.995 --keep-class-distribution=False --beta=5.0 --seed=23 --model=wrn-28-10-swish --lr=0.2 --ls=0.1 --weight-decay=5e-4 --scheduler=cosinew --nesterov=True --attack=linf-pgd --clip-value=0 --mart=False --generated-fraction=0.8 --attack-eps=0.03137254901960784 --attack-iter=10 --attack-step=0.00784313725490196 --adversarial=True

该代码会自动下载CIFAR-10数据集。

超参数配置

dataset: 选择实验的数据集，如 cifar10 或 cifar10_generated2m_random。
epochs: 实验的迭代次数。
prune-percentage: 从数据集中移除的样本百分比。
use-adversarial-predictions: 是否使用对抗性预测来计算剪枝得分。
early-stop-diff: 在验证集上鲁棒性准确率无改善的迭代次数，直到训练停止。
resume-training: 是否恢复之前的训练运行。
batch-size: 训练期间使用的批次大小。
run-name: 用于在磁盘和MLflow中存储结果的名称，也用于恢复运行。
only-generated: 如果为真，则使用整个合成数据集作为训练集，不使用原始数据。
tau: 权重平均衰减。
keep-class-distribution: 是否按类别平衡进行剪枝。
beta: TRADES的稳定性正则化项。
seed: 用于随机函数的种子。
model: 使用的模型架构，如 wrn-28-10-swish 或 wrn-70-16-swish。
lr: 学习率。
ls: 标签平滑。预测目标为 1-ls。
weight-decay: 训练期间的权重衰减。
scheduler: 使用的调度策略，如 cyclic、step、cosine 或 cosinew。
nesterov: 是否使用Nesterov动量。
attack: 训练期间使用的攻击方法，如 fgsm、linf-pgd 等。
clip-value: 梯度范数裁剪。
mart: 是否使用mart损失。
generated-fraction: 每个迭代中使用的合成图像百分比。
attack-eps: 威胁模型中使用的epsilon。
attack-iter: 如果选择多步攻击，则使用的步数。
attack-step: 攻击的步长。
adversarial: 是否进行对抗性训练或标准训练。

去重设置

如果需要运行去重，下载 sscd_dics_mixup.classy.pt 文件并将其移动到 core/sscd/ 目录。然后可以使用 --deduplication-threshold 超参数设置去重阈值。

搜集汇总

数据集介绍

构建方式

CIFAR-10数据集的构建基于对图像分类任务的深入研究，由加拿大高级研究所（CIFAR）主导。该数据集包含了60,000张32x32像素的彩色图像，分为10个类别，每个类别包含6,000张图像。这些图像来源于真实世界的物体，如飞机、汽车、鸟类等，确保了数据集的多样性和代表性。通过随机抽样和均衡分配，确保每个类别的样本数量一致，从而为模型训练提供了均衡的数据基础。

特点

CIFAR-10数据集以其高度的多样性和均衡性著称，适用于多种图像处理和机器学习任务。其图像尺寸小巧，便于处理和存储，同时保持了足够的细节以支持复杂的分类任务。此外，该数据集的标签准确且一致，减少了数据预处理的工作量。CIFAR-10的广泛应用使其成为评估和比较不同算法性能的标准基准。

使用方法

使用CIFAR-10数据集时，首先需将其划分为训练集和测试集，通常采用80%和20%的比例。训练集用于模型的学习和参数调整，而测试集用于评估模型的泛化能力。研究者可以通过构建卷积神经网络（CNN）等深度学习模型来处理该数据集，利用其丰富的图像特征进行分类。此外，CIFAR-10也可用于探索数据增强技术，以提升模型的鲁棒性和性能。

背景与挑战

背景概述

CIFAR-10数据集由加拿大高级研究所（CIFAR）于2009年发布，由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton共同创建。该数据集旨在为图像分类任务提供一个标准化的基准，包含60,000张32x32像素的彩色图像，分为10个类别，每类6,000张图像。CIFAR-10的发布极大地推动了计算机视觉领域的发展，特别是在深度学习技术的早期阶段，为研究人员提供了一个广泛使用的数据集，促进了图像分类算法的研究和改进。

当前挑战

尽管CIFAR-10在图像分类领域具有重要地位，但其构建过程中也面临诸多挑战。首先，图像分辨率较低（32x32像素），导致图像细节丢失，增加了分类难度。其次，数据集规模相对较小，难以充分训练复杂的深度学习模型。此外，类别之间的相似性较高，如汽车和卡车、狗和猫等，进一步增加了分类的复杂性。这些挑战促使研究人员不断探索更高效的特征提取和分类方法，以提升模型在CIFAR-10上的表现。

发展历史

创建时间与更新

CIFAR-10数据集由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton于2009年创建，旨在为计算机视觉研究提供一个标准化的图像分类基准。该数据集自创建以来未进行过重大更新，但其原始版本至今仍被广泛使用。

重要里程碑

CIFAR-10数据集的发布标志着计算机视觉领域的一个重要里程碑。它包含了60,000张32x32像素的彩色图像，分为10个类别，每类6,000张。这一数据集的出现极大地推动了图像分类算法的发展，尤其是在深度学习技术的早期阶段。许多经典的深度学习模型，如AlexNet和VGG，在其训练过程中都使用了CIFAR-10数据集，从而验证了这些模型的有效性。

当前发展情况

尽管CIFAR-10数据集已有十余年的历史，它仍然是计算机视觉研究中的一个重要基准。随着深度学习技术的不断进步，研究人员在CIFAR-10上的表现也在不断提升，这不仅展示了算法的进步，也反映了数据集在推动技术发展中的持续作用。此外，CIFAR-10的成功也催生了更多类似的数据集，如CIFAR-100和Tiny ImageNet，进一步丰富了计算机视觉领域的研究资源。

发展历程

CIFAR-10数据集首次发表，由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton共同创建，旨在为图像分类任务提供一个标准化的基准数据集。
2009年
在ImageNet大规模视觉识别挑战赛中，基于CIFAR-10数据集的深度学习模型表现出色，标志着深度学习在图像识别领域的突破性进展。
2012年
研究者们开始广泛使用CIFAR-10数据集进行深度学习模型的训练和评估，推动了卷积神经网络（CNN）架构的进一步优化和发展。
2014年
CIFAR-10数据集成为许多计算机视觉课程和研究项目的基础数据集，促进了学术界和工业界对图像识别技术的深入研究。
2017年

常用场景

经典使用场景

在计算机视觉领域，CIFAR-10数据集以其丰富的图像样本和多样的类别标签，成为深度学习模型训练的经典基准。该数据集包含10个类别，每个类别有6000张32x32像素的彩色图像，共计60000张图像。研究人员常利用CIFAR-10进行图像分类任务，通过比较不同模型在该数据集上的表现，评估和优化模型的性能。

实际应用

在实际应用中，CIFAR-10数据集的训练和测试结果为图像识别技术的商业化提供了重要参考。例如，在自动驾驶、安防监控和医疗影像分析等领域，基于CIFAR-10训练的模型能够有效识别和分类各种物体，提升系统的智能化水平。此外，该数据集还被广泛应用于教育培训，帮助学生和研究人员掌握图像处理和深度学习的基本技能。

衍生相关工作

基于CIFAR-10数据集，许多相关的经典工作得以展开。例如，AlexNet、VGGNet和ResNet等深度学习模型在CIFAR-10上的优异表现，推动了卷积神经网络的发展。此外，研究人员还通过CIFAR-10数据集探索了数据增强、正则化和迁移学习等技术，进一步提升了模型的性能和鲁棒性。这些工作不仅丰富了计算机视觉的理论基础，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集