MAD-M, MAD-C

Name: MAD-M, MAD-C
Creator: 哈尔滨工业大学
Published: 2023-09-18 21:57:37
License: 暂无描述

arXiv2023-09-18 更新2024-06-21 收录

下载链接：

https://github.com/PXX1110/Meta AT

下载链接

链接失效反馈

官方服务：

资源简介：

MAD-M和MAD-C是由哈尔滨工业大学创建的两个大规模数据集，用于对抗性训练的基准测试。这两个数据集是通过对MNIST和CIFAR-10数据集应用30种主流对抗性攻击方法生成的。MAD-M包含10个类别，每个类别有28x28像素的图像，而MAD-C包含10个类别，每个类别有32x32像素的图像。这些数据集旨在评估模型对未知攻击的防御能力，通过元学习方法提高模型的鲁棒性。数据集的创建过程涉及精心筛选的攻击方法和数据分割，确保了数据集的多样性和实用性。应用领域主要集中在提高深度学习模型在对抗环境下的防御性能，解决模型在面对新型攻击时的脆弱性问题。

MAD-M and MAD-C are two large-scale datasets created by Harbin Institute of Technology, which serve as benchmarks for adversarial training. These datasets are generated by applying 30 mainstream adversarial attack methods to the MNIST and CIFAR-10 datasets. MAD-M contains 10 classes, with each class having 28×28 pixel images, while MAD-C has 10 classes, each with 32×32 pixel images. These datasets aim to evaluate the defense capabilities of models against unknown adversarial attacks and improve model robustness via meta-learning methods. The dataset creation process involves carefully selected attack methods and data splitting, which ensures the diversity and practicality of the datasets. Their application fields mainly focus on enhancing the defense performance of deep learning models in adversarial environments and addressing the vulnerability of models when facing novel adversarial attacks.

提供机构：

哈尔滨工业大学

创建时间：

2023-09-18

搜集汇总

数据集介绍

构建方式

在对抗性机器学习领域，构建能够全面评估防御方法泛化能力的数据集至关重要。MAD-M和MAD-C数据集的构建基于MNIST和CIFAR-10这两个经典基准数据集，通过系统性地应用30种主流对抗性攻击算法生成对抗样本。具体而言，研究团队首先使用在干净样本上预训练的ResNet-18模型，对原始测试集数据施加各类攻击，仅保留攻击成功的样本以确保数据有效性。攻击算法涵盖了白盒与黑盒、不同范数约束以及多样化的扰动生成策略，从而形成了大规模且多样化的对抗样本集合。数据划分遵循元学习范式，按照3:1:1的比例将每个类别的样本分配至训练、验证和测试集，以支持少样本学习场景下的模型评估与训练。

特点

MAD数据集的核心特点在于其广泛的攻击覆盖与精心设计的评估结构。该数据集集成了30种具有代表性的对抗攻击方法，包括FGSM、PGD、DeepFool等经典算法，以及较新的Square、APGD等方法，全面涵盖了不同攻击范式和知识假设。数据组织采用元学习框架，将对抗防御任务构建为一系列“A-way, K-shot”的元任务，其中每个任务包含由特定攻击生成的支撑集和查询集。这种结构使得数据集不仅能够评估模型对已知攻击的防御能力，更能检验其通过少量样本快速适应未知攻击的泛化性能。此外，数据集引入了均衡防御成功率这一创新评估指标，综合考量防御效果与时间效率，为对抗防御研究提供了更全面、无偏的评估基准。

使用方法

MAD数据集的使用紧密围绕其元对抗防御基准的设计目标。在典型工作流程中，研究者首先利用数据集的训练部分进行元对抗训练，模型通过迭代学习多个由不同攻击构成的元任务，从而掌握跨攻击的通用防御表征。验证集用于超参数调优与早期停止，以优化模型性能并防止过拟合。测试阶段则分为两部分：一部分用于评估模型对训练中已见攻击类型的防御效果，另一部分则专门测试模型对全新、未见攻击的快速适应能力，即少样本元适应。数据集的划分协议明确规定了不同子集在训练、微调和测试中的角色，确保了评估的公平性与可重复性。通过这一流程，研究者能够系统性地衡量防御方法在准确性、鲁棒性、泛化性及计算效率等多方面的综合表现。

背景与挑战

背景概述

在深度学习领域，对抗性攻击已成为模型安全性的核心威胁，其通过微小扰动误导训练有素的模型，对自动驾驶、人脸识别等前沿应用构成潜在风险。为应对这一挑战，哈尔滨工业大学的彭晓旭、周东、孙光辉等研究人员于2021年提出了元对抗防御基准（MAD），包含基于MNIST和CIFAR-10生成的MAD-M与MAD-C两个大规模数据集。该基准旨在解决传统对抗训练方法存在的计算成本高昂、泛化能力不足及原始模型与防御模型间权衡困境等核心问题，通过引入元学习框架，推动对抗防御技术向高效、自适应方向演进，为模型鲁棒性研究提供了标准化评估平台。

当前挑战

MAD数据集致力于应对对抗性防御领域的双重挑战：其一，在领域问题层面，传统对抗训练方法难以抵御未知攻击类型，且常以牺牲原始分类精度为代价，导致模型在实际场景中的泛化性与实用性受限；其二，在构建过程中，数据集需集成30种主流对抗攻击算法，并确保攻击样本的多样性与平衡性，同时避免因攻击效果不均或类别分布失衡而影响评估的公正性，这对数据筛选与标注提出了极高要求。

常用场景

经典使用场景

在对抗性机器学习领域，MAD-M与MAD-C数据集作为元对抗防御基准的核心组成部分，其经典应用场景聚焦于评估和提升深度学习模型对未知对抗攻击的泛化防御能力。该数据集通过整合三十种主流对抗攻击算法对MNIST和CIFAR-10基准数据集进行系统化扰动构建，为研究者提供了标准化、大规模的多攻击场景测试环境。其核心价值在于支持元学习框架下的少样本对抗训练，使模型能够通过有限样本快速适应新型攻击模式，从而突破传统对抗训练方法在计算成本、泛化性能与模型原始精度之间的三重困境。

衍生相关工作

基于MAD数据集衍生的经典研究工作主要沿三个维度展开：在算法创新方面，催生了如元对抗训练、少样本自适应防御等一系列新型防御框架，这些方法通过任务分解与元优化策略显著提升了防御效率。在评估体系层面，启发了多指标融合的防御效能评估标准，推动领域从单一准确率导向转向综合效能评估。在理论探索方向，促进了对抗样本可迁移性、跨域防御机制等基础问题的深入研究，相关成果已延伸至目标检测、语义分割等视觉任务，形成了以元学习为核心的新兴防御研究范式。

数据集最近研究