Optimized CIFAR-10

Name: Optimized CIFAR-10
Creator: 哈尔滨工业大学计算机科学与技术学院
Published: 2022-03-10 20:16:32
License: 暂无描述

arXiv2022-03-10 更新2024-07-31 收录

下载链接：

https://github.com/hncszyq/tianchi_challenge

下载链接

链接失效反馈

官方服务：

资源简介：

本研究针对模型鲁棒性问题，提出了一种基于数据中心的优化算法，用于改进CIFAR-10数据集。该数据集经过优化，包含了可转移的对抗性示例和14种常见损坏类型，旨在提升深度神经网络的鲁棒性。优化过程中，数据集的样本数量保持不变，通过添加对抗性扰动和损坏样本，使得训练集更接近实际应用中的数据分布。此数据集在阿里巴巴集团和清华大学联合举办的数据中心鲁棒学习竞赛中，帮助团队在众多参赛者中获得第三名和第四名的成绩，显示出其在提升模型鲁棒性方面的有效性。

Aiming at the problem of model robustness, this study proposes a data-centric optimization algorithm to improve the CIFAR-10 dataset. This optimized dataset contains transferable adversarial examples and 14 common corruption types, aiming to enhance the robustness of deep neural networks. During the optimization process, the sample size of the dataset remains unchanged. By adding adversarial perturbations and corrupted samples, the training set is made closer to the data distribution in real-world applications. This dataset helped teams secure the 3rd and 4th places among numerous participants in the Data-Centric Robust Learning Competition co-hosted by Alibaba Group and Tsinghua University, demonstrating its effectiveness in improving model robustness.

提供机构：

哈尔滨工业大学计算机科学与技术学院

创建时间：

2022-03-10

原始信息汇总

数据集概述

数据集结构

CIFAR-10 数据集：
- 训练集：train_data.npy, train_label.npy
- 测试集：test_data.npy, test_label.npy
模型结构和训练参数：
- 训练好的模型参数：densenet121.pth.tar, mobilenetv2.pth.tar, resnet50.pth.tar, vgg16.pth.tar, wideresnet.pth.tar
- 模型定义文件：__init__.py, densenet.py, resnet.py, wideresnet.py
对抗扰动数据：
- delta_l2.npy：由 gen_delta_l2.py 生成
- delta_linf.npy：由 gen_delta_linf.py 生成

使用方法

下载数据集和训练好的模型：
- 下载 CIFAR-10 数据集并放置在 cifar10/ 目录下。
- 下载训练好的模型并放置在 models/trained/ 目录下。
生成增强数据集：
- 确保 delta_l2.npy 和 delta_linf.npy 已生成后，运行 gen_dataset.py。 Shell $ python3 gen_dataset.py
生成对抗扰动：
- 生成 linf-bounded 对抗扰动： Shell $ python3 gen_delta_linf.py
- 生成 l2-bounded 对抗扰动： Shell $ python3 gen_delta_l2.py

搜集汇总

数据集介绍

构建方式

在深度学习模型鲁棒性研究的背景下，Optimized CIFAR-10数据集的构建遵循数据为中心的人工智能理念，旨在通过优化训练集分布来提升模型对抗恶意扰动和常见损坏的鲁棒性。该数据集基于原始CIFAR-10数据集，采用一种创新的算法进行增强：首先将训练集随机划分为三个子集，分别保留原始样本、添加可迁移对抗性扰动以及应用随机选择的14种常见损坏（如雨雪、高斯噪声等）。通过结合动量更新、梯度平滑、输入多样化和模型集成等技术，生成高转移性的对抗样本，同时保持训练样本总数不变，确保数据集规模与原始CIFAR-10一致。

使用方法

Optimized CIFAR-10数据集的使用旨在训练和评估深度学习模型在对抗性攻击和常见损坏下的鲁棒性能。研究人员可直接将数据集作为训练集，采用标准经验风险最小化方法进行模型训练，无需额外修改模型结构或训练流程。在评估阶段，建议使用包含干净样本、对抗样本和损坏样本的私有测试集，通过计算整体分类率来量化模型鲁棒性。数据集支持灵活调整样本划分比例，以平衡模型在干净样本上的准确性与鲁棒性需求。此外，该数据集可与现有模型为中心技术结合，进一步探索数据与模型协同优化的潜力，推动可信人工智能领域的发展。

背景与挑战

背景概述

在可信人工智能领域，深度神经网络对恶意扰动的鲁棒性已成为研究热点。哈尔滨工业大学先进成像与智能分析实验室的钟毅奇、吴磊、刘贤明和蒋俊俊于2022年提出的Optimized CIFAR-10数据集，标志着数据为中心的人工智能范式在模型鲁棒性研究中的创新应用。该数据集基于经典CIFAR-10构建，核心研究问题在于探索通过优化训练数据本身来提升模型对抗性攻击和常见腐蚀的防御能力，而非传统模型结构或训练过程的调整。其设计灵感源于Andrew Ng发起的数据为中心AI运动，并在阿里巴巴与清华大学联合举办的数据为中心鲁棒学习竞赛中取得优异排名，为模型鲁棒性研究开辟了全新的数据驱动视角。

当前挑战

Optimized CIFAR-10数据集旨在解决图像分类模型在对抗性样本和常见腐蚀扰动下的鲁棒性挑战，这些扰动包括难以察觉的对抗性噪声以及雨雪、旋转等现实环境干扰。构建过程中的主要挑战在于如何在保持数据集规模不变的约束下，有效融合多样化的扰动模式。具体而言，生成高迁移性的对抗性样本需综合动量更新、梯度平滑等多种技术以避免过拟合；同时，整合14类常见腐蚀并确保其随机性，以模拟真实世界的数据分布异质性。此外，平衡干净样本与扰动样本的比例，以在模型鲁棒性与原始分类性能间取得最优权衡，亦是数据集构建的关键难点。

常用场景

经典使用场景

在可信人工智能领域，对抗性攻击和常见损坏对深度神经网络稳健性构成严峻挑战。Optimized CIFAR-10数据集通过数据中心的增强策略，为模型稳健性研究提供了经典实验平台。该数据集在原始CIFAR-10基础上，系统性地融入了可迁移对抗样本和14类常见损坏样本，构建了一个包含多样化扰动模式的训练集。研究者利用该数据集能够训练出对恶意扰动具有更强鲁棒性的视觉分类模型，尤其在对抗训练和损坏适应任务中展现出显著价值。

解决学术问题

该数据集有效解决了深度神经网络在对抗性环境和现实损坏下的脆弱性问题。传统方法多聚焦于模型结构优化或训练策略改进，而Optimized CIFAR-10开创性地从数据维度切入，通过分布对齐原理将扰动样本纳入训练集，使模型能够同时学习清洁样本与扰动样本的特征表示。这不仅提升了模型对对抗攻击的防御能力，还增强了其对光照变化、天气干扰等常见损坏的泛化性能，为构建安全可靠的AI系统提供了新的方法论支撑。

实际应用

在自动驾驶、医疗影像诊断等安全关键领域，模型的稳健性直接决定系统可靠性。Optimized CIFAR-10通过模拟真实场景中的传感器噪声、天气干扰和恶意攻击，为工业级视觉系统提供了重要的压力测试基准。基于该数据集训练的模型能够显著降低在复杂环境下误判的风险，例如在雨雾天气中保持交通标志识别精度，或抵御针对医疗影像的对抗性篡改。这种数据中心的增强范式可直接迁移至工业数据管道，提升生产环境模型的抗干扰能力。

数据集最近研究