MBZUAI-LLM/M-Attack_AdvSamples

Name: MBZUAI-LLM/M-Attack_AdvSamples
Creator: MBZUAI-LLM
Published: 2025-03-14 17:32:00
License: 暂无描述

Hugging Face2025-03-14 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/MBZUAI-LLM/M-Attack_AdvSamples

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含使用`M-Attack`生成的100个对抗样本，这些样本用于扰动NIPS 2017对抗攻击与防御竞赛中的图像。数据集分为三个子目录，每个子目录包含100个对抗样本，分别对应不同的攻击强度参数epsilon（4、8、16）。所有图像的尺寸均为224x224像素。

This dataset contains 100 adversarial samples generated using `M-Attack` to perturb images from the NIPS 2017 Adversarial Attacks and Defenses Competition. The dataset is divided into three subdirectories, each containing 100 adversarial samples corresponding to different attack strength parameters epsilon (4, 8, 16). All images are 224x224 pixels in size.

提供机构：

MBZUAI-LLM

搜集汇总

数据集介绍

构建方式

在对抗性机器学习领域，为评估模型鲁棒性，M-Attack对抗样本数据集应运而生。该数据集基于NIPS 2017对抗攻击与防御竞赛的图像，运用M-Attack方法生成对抗性扰动。构建过程通过设定不同强度的epsilon参数（4、8、16），分别施加轻度、中度和强烈扰动，最终形成包含300个样本的集合，所有图像均统一调整为224x224像素的标准尺寸，确保了数据的一致性与可比性。

特点

该数据集的核心特征在于其系统化的对抗强度梯度设计。每个样本均标注了唯一的图像标识符、对应的对抗图像、攻击强度参数epsilon以及图像的宽高信息。数据集按扰动强度划分为三个明确子集，分别对应不同的视觉扰动程度，为研究者提供了多层次的攻击场景。这种结构化组织便于分析模型在不同扰动强度下的脆弱性，揭示了对抗样本的生成规律与视觉特性。

使用方法

该数据集主要服务于机器学习安全研究，可用于系统评估各类视觉模型的对抗鲁棒性。研究者可加载不同epsilon子集的图像，测试模型在遭受不同程度扰动时的性能表现。此外，这些样本能为开发防御机制提供基准测试数据，通过分析扰动模式，探索有效的对抗检测与缓解策略。数据集亦适用于研究对抗性扰动在视觉层面的表征特性，推动鲁棒机器学习算法的发展。

背景与挑战

背景概述

在人工智能安全领域，对抗性攻击研究旨在揭示深度学习模型的脆弱性，通过精心设计的扰动误导模型产生错误输出。M-Attack对抗样本数据集由MBZUAI研究团队于2025年创建，其核心研究问题聚焦于评估以GPT-4.5/4o/o1为代表的强大黑盒视觉语言模型的鲁棒性。该数据集基于NIPS 2017对抗攻击与防御竞赛的图像构建，通过系统化的扰动强度分级，为模型安全性评估提供了标准化基准，推动了对抗性机器学习领域从白盒攻击向黑盒攻击的范式演进。

当前挑战

该数据集致力于解决多模态大语言模型在图像理解任务中的对抗鲁棒性挑战，其核心在于量化人类难以察觉的扰动对模型输出的破坏性影响。构建过程中的挑战主要体现在扰动强度的精细化标定，需在视觉保真度与攻击有效性之间取得平衡；同时，确保对抗样本在黑盒设定下的可迁移性，要求扰动策略能泛化至未知模型架构。此外，数据集的规模受限，难以覆盖复杂真实场景的多样性，这为全面评估模型鲁棒性带来局限。

常用场景

经典使用场景

在对抗性机器学习领域，M-Attack_AdvSamples数据集为评估多模态大模型的鲁棒性提供了关键基准。该数据集通过M-Attack方法生成对抗样本，针对NIPS 2017竞赛图像施加不同强度的扰动，经典使用场景集中于测试GPT-4.5/4o/o1等黑盒模型在图像描述任务中的脆弱性。研究者利用这些样本系统分析模型在遭受视觉干扰时的性能退化，揭示其决策边界的内在缺陷，为构建更稳健的视觉语言理解系统奠定实验基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在对抗性防御算法的创新与评估框架的扩展。许多研究基于其提供的基准样本，提出了针对多模态模型的梯度掩蔽、对抗训练和特征净化等防御技术。同时，该数据集也催生了新的评估指标和基准测试平台，推动了学术界对黑盒攻击效力的深入探讨，并为后续更复杂的对抗性攻击与防御研究提供了重要参照。

数据集最近研究