five

ImageNet-A|图像分类数据集|模型弱点分析数据集

收藏
huggingface2024-07-06 更新2024-12-12 收录
图像分类
模型弱点分析
下载链接:
https://huggingface.co/datasets/Voxel51/ImageNet-A
下载链接
链接失效反馈
资源简介:
ImageNet-A是一个包含7450个样本的FiftyOne数据集,专门用于图像分类任务。该数据集包含经过筛选的自然图像,这些图像能够可靠地欺骗当前的ImageNet分类器,显示出这些模型在面对特定类型的图像时存在共同的弱点。数据集中的图像来自200个ImageNet类别,这些类别经过精心选择以避免过于细粒度的分类和类别之间的显著重叠。数据集的创建过程包括下载相关图像,剔除那些被固定ResNet-50分类器正确预测的图像,然后手动选择视觉上清晰的图像以形成最终的数据集。
创建时间:
2024-07-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ImageNet-A
  • 样本数量: 7450
  • 语言: 英语
  • 数据集大小: 1K < n < 10K
  • 任务类别: 图像分类
  • 标签: fiftyone, image, image-classification

数据集描述

ImageNet-A 是一个包含对抗性筛选图像的数据集,这些图像能够可靠地欺骗当前的 ImageNet 分类器。该数据集包含自然、未经修改的现实世界示例,这些示例能够转移到各种未见过的 ImageNet 模型中,表明这些模型与对抗性选择的图像共享弱点。这些图像在各种模型中导致一致的分类错误。

创建过程

  1. 作者首先下载了与 ImageNet 类别相关的众多图像。
  2. 然后删除了固定 ResNet-50 分类器正确预测的图像。
  3. 从剩余的错误分类图像中,作者手动选择了视觉上清晰的图像。

数据集特点

  • 包含约 7,500 张对抗性筛选的自然图像。
  • 图像属于 200 个 ImageNet 类别,这些类别避免了过于细粒度的类别和具有大量重叠的类别。
  • 图像来源包括 iNaturalist、Flickr 和 DuckDuckGo。
  • 最终数据集包含 7,500 张自然、未经修改的图像,这些图像能够可靠地转移到并欺骗未见过的模型。

引用

bibtex @article{hendrycks2021nae, title={Natural Adversarial Examples}, author={Dan Hendrycks and Kevin Zhao and Steven Basart and Jacob Steinhardt and Dawn Song}, journal={CVPR}, year={2021} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ImageNet-A数据集的构建过程体现了对抗性样本筛选的严谨性。研究者首先从iNaturalist、Flickr和DuckDuckGo等平台下载了与200个ImageNet类别相关的图像,随后利用固定的ResNet-50分类器进行预测,剔除被正确分类的图像。在此基础上,研究者手动筛选出视觉清晰且单类别明确的图像,最终形成了包含约7500张自然图像的对抗性样本数据集。这一过程确保了数据集中的图像能够有效揭示模型在分布偏移情况下的脆弱性。
特点
ImageNet-A数据集以其对抗性样本的独特性质著称。该数据集包含7500张未经修改的自然图像,这些图像能够稳定地欺骗多种未见过的ImageNet模型,揭示了模型在分布偏移下的共同弱点。数据集覆盖了200个广泛且具有代表性的ImageNet类别,避免了过于细粒度或类别重叠的问题。其图像来源多样,确保了样本的多样性和挑战性,为评估模型鲁棒性提供了高质量的测试基准。
使用方法
ImageNet-A数据集的使用方法简洁高效。用户可通过FiftyOne库加载数据集,并利用其提供的工具进行可视化与分析。首先,通过`pip install -U fiftyone`安装FiftyOne库,随后使用`fouh.load_from_hub`方法加载数据集。加载完成后,用户可通过`fo.launch_app`启动交互式应用,直观地浏览数据集中的图像及其分类结果。此外,用户还可根据需求调整加载参数,如`max_samples`,以灵活控制数据规模。
背景与挑战
背景概述
ImageNet-A数据集由Jacob Steinhardt和Dawn Song等研究人员于2019年创建,旨在通过对抗性过滤的图像来测试图像分类模型的鲁棒性。该数据集包含7450张自然、未经修改的真实世界图像,这些图像能够可靠地欺骗当前的ImageNet分类器。ImageNet-A的构建过程涉及从iNaturalist、Flickr和DuckDuckGo等来源下载图像,并通过固定ResNet-50分类器进行筛选,保留那些分类错误的图像。最终,研究人员手动选择了视觉上清晰的单类图像,形成了这一具有挑战性的数据集。ImageNet-A的出现为研究图像分类模型在数据分布变化下的性能提供了重要工具,推动了模型鲁棒性研究的发展。
当前挑战
ImageNet-A数据集的核心挑战在于其对抗性过滤的图像能够揭示当前图像分类模型的共同弱点。这些图像不仅在ResNet-50上表现不佳,还能迁移到其他未见过的模型上,导致一致的分类错误。这一特性使得ImageNet-A成为评估模型鲁棒性的重要基准。然而,构建该数据集的过程也面临诸多挑战。首先,研究人员需要从大量图像中筛选出能够欺骗分类器的样本,这一过程既耗时又复杂。其次,为了确保数据集的多样性和代表性,研究人员必须避免选择过于细粒度或重叠的类别。最后,手动选择视觉清晰的图像需要大量的人工干预,增加了数据集构建的难度。这些挑战共同塑造了ImageNet-A的独特性和研究价值。
常用场景
经典使用场景
ImageNet-A数据集在图像分类领域中被广泛用于测试和评估模型的鲁棒性。该数据集包含了经过对抗性筛选的自然图像,这些图像能够可靠地欺骗当前的ImageNet分类器。研究人员通常使用ImageNet-A来验证模型在面对分布偏移时的表现,尤其是在输入数据分布发生变化时,模型的分类性能是否能够保持稳定。通过这种方式,ImageNet-A为图像分类模型的鲁棒性研究提供了一个极具挑战性的基准。
实际应用
在实际应用中,ImageNet-A数据集被广泛用于评估和改进图像分类模型在现实世界中的表现。例如,在自动驾驶、医学影像分析和安防监控等领域,模型的鲁棒性至关重要。通过使用ImageNet-A,开发者可以测试模型在面对复杂、多样化的输入数据时的表现,确保其在真实场景中的可靠性。此外,该数据集还为模型的安全性和稳定性提供了重要的验证工具,帮助减少模型在实际应用中的错误率。
衍生相关工作
ImageNet-A数据集的发布催生了一系列关于模型鲁棒性和对抗性样本的研究工作。例如,基于该数据集的研究揭示了深度神经网络在面对自然对抗样本时的脆弱性,并提出了多种改进模型鲁棒性的方法。此外,ImageNet-A还激发了对抗性训练、数据增强和模型正则化等领域的研究,推动了图像分类技术的进一步发展。这些工作不仅提升了模型的性能,还为未来的研究提供了新的方向和思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录