ImageNet-derived benchmark dataset

Name: ImageNet-derived benchmark dataset
Creator: L3S Research Center, Leibniz University Hannover, E.ON Grid Solutions, University of Luxembourg
Published: 2025-07-10 21:56:32
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://doi.org/10.5281/zenodo.15771501

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于ImageNet的部分图像生成的，包括3000张真实图像、7000个对抗性示例和超过34000个人类评分。数据集用于评估和比较不受限制的对抗性攻击，旨在帮助研究人员了解这些攻击对人类感知的影响。数据集的创建过程涉及到收集人类对图像的感知评估，并以此作为对抗性攻击的基准。该数据集的应用领域主要包括对抗性机器学习和计算机视觉，旨在解决对抗性攻击对计算机视觉模型的影响问题。

This dataset is generated from a subset of ImageNet images, comprising 3000 real images, 7000 adversarial examples, and over 34000 human ratings. It is used to evaluate and compare unrestricted adversarial attacks, aiming to help researchers understand the impact of such attacks on human perception. The creation process of this dataset involves collecting human perceptual assessments of the images, which serve as the benchmark for adversarial attacks. The main application fields of this dataset include adversarial machine learning and computer vision, with the goal of solving the problem of the impact of adversarial attacks on computer vision models.

提供机构：

L3S Research Center, Leibniz University Hannover, E.ON Grid Solutions, University of Luxembourg

创建时间：

2025-07-10

搜集汇总

数据集介绍

构建方式

ImageNet-derived benchmark dataset的构建过程基于ImageNet验证集的精选子集，通过多阶段筛选确保数据质量。首先，研究人员依据Beyer等人（2020）的重新标注结果，剔除不含ImageNet对象或包含多对象的图像，保留39,394张单对象图像。随后，采用对抗训练后的ResNet-50模型（ResNet-50-ATnorm）筛选高置信度正确分类样本，获得4,951张图像。最终通过人工审核去除水印、滤镜等修饰痕迹，确保每类保留3张原始图像，形成包含2,966张高质量图像的ImageNet S-R50-N数据集。该过程特别强调对抗样本研究中真实图像基线的纯净性，所有图像保留原始尺寸以维持真实场景多样性。

特点

该数据集的核心特点体现在三个方面：首先，严格的图像筛选机制确保所有样本均为单对象场景且未经人工修饰，为对抗样本的不可感知性评估提供可靠基线；其次，数据集针对鲁棒性模型ResNet-50-ATnorm优化，包含其高置信度分类样本，使生成的对抗样本必须突破标准范数限制，强化了评估的严谨性；最后，数据集中每张图像保留原始分辨率和自然属性，避免了常规对抗训练数据集中的标准化处理，更贴近实际应用场景。这些特性使其成为评估无限制对抗攻击不可感知性的黄金标准。

使用方法

该数据集需结合Scooter评估框架使用，具体流程分为三阶段：首先通过色彩视觉测试和图像修改识别测试筛选合格标注者；随后采用5级Likert量表（-2至+2）对真实图像与对抗样本进行人工评分，每参与者标注50张真实图像和50张对抗样本；最后通过混合效应模型和TOST等价性检验进行统计分析。研究建议标注样本量不少于50人，采用±0.2作为等价界限，并报告μ_modified（对抗样本平均分）、μ_real（真实图像平均分）及标准差等核心指标。数据集还可用于验证自动化评估指标（如FID、SWD）与人类感知的一致性，或测试多模态模型（如GPT-4o）的对抗样本检测能力。

背景与挑战

背景概述

ImageNet-derived benchmark dataset是由L3S研究中心、E.ON Grid Solutions和卢森堡大学的研究团队创建的，旨在评估无限制对抗样本的不可感知性。该数据集基于ImageNet数据集，包含3,000张真实图像和7,000个对抗样本，并收集了超过34,000条人类评分。其核心研究问题是验证无限制对抗攻击生成的图像在人类眼中的不可感知性，从而填补了传统对抗攻击评估中缺乏人类感知验证的空白。该数据集通过提供统一的评估框架，显著推动了对抗机器学习领域的研究，特别是在计算机视觉模型的鲁棒性和安全性方面。

当前挑战

该数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：无限制对抗攻击生成的图像需要在不依赖传统ℓp范数限制的情况下保持对人类观察者的不可感知性，这对攻击设计和评估提出了更高的要求；2) 构建过程的挑战：数据集创建过程中需要克服人类评估的主观性和统计显著性难题，包括确保大规模人类评分的可靠性、设计有效的注意力检查机制，以及处理不同攻击方法生成的对抗样本的多样性。此外，如何平衡评估的严谨性与实际操作的可行性（如参与者筛选和补偿机制）也是构建过程中的重要挑战。

常用场景

经典使用场景

ImageNet-derived benchmark dataset在计算机视觉领域中被广泛用于评估无限制对抗样本的不可感知性。该数据集通过结合真实图像和对抗样本，为研究者提供了一个标准化的测试平台，用以衡量对抗攻击对人类视觉系统的欺骗程度。其经典使用场景包括对抗样本生成算法的性能评估、人类与机器视觉系统的感知差异研究，以及对抗防御策略的有效性验证。

实际应用

在实际应用中，该数据集为安全关键领域（如自动驾驶和医疗影像分析）的模型鲁棒性评估提供了重要工具。通过标准化的人类评估框架，开发者可以检测视觉系统中可能被恶意利用的语义漏洞。此外，数据集衍生的评估协议已被用于测试多模态大语言模型（如GPT-4o）的对抗样本识别能力，为构建更安全的AI系统提供了基准。在工业界，该框架可集成到模型开发流程中，用于验证防御策略对人类感知的兼容性。

衍生相关工作

该数据集催生了多个重要研究方向：1) 基于潜在扩散模型的新型对抗攻击方法（如DiffAttack和ACA），利用生成模型提升对抗样本的真实性；2) 人类感知对齐的客观质量指标研究，挑战了传统Fréchet距离等指标的适用性；3) 对抗训练方法的改进，如Salman等人提出的ResNet-50-ATnorm架构。相关工作还扩展到文本生成图像模型的评估领域，如Otani等人提出的可验证人类评估协议。数据集构建方法论也影响了后续大规模人类标注实验的设计标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集