ImageNet-D

Hugging Face2024-07-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Voxel51/ImageNet-D

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet-D是一个新基准，使用扩散模型生成包含4838个样本的合成图像数据集。该数据集通过结合对象类别和各种干扰属性生成大量合成图像，旨在揭示当前视觉模型中的显著鲁棒性差距。数据集的创建涉及图像生成、提示设计、标签等多个步骤，并通过亚马逊Mechanical Turk进行人工标注以确保质量。ImageNet-D由KAIST、University of Michigan、McGill University和MILA资助，采用MIT许可证。

创建时间：

2024-07-04

原始信息汇总

数据集概述

基本信息

数据集名称: ImageNet-D
样本数量: 4838
语言: 英语
大小类别: 1K<n<10K
任务类别: 图像分类
标签: fiftyone, image, image-classification, synthetic

数据集描述

ImageNet-D 是一个使用扩散模型生成的新基准数据集，包含多样化的背景、纹理和材质的合成图像。该数据集包含 4,835 张难度较高的图像，这些图像导致多种视觉模型（如 ResNet、ViT、CLIP、LLaVa 和 MiniGPT-4）的准确率下降高达 60%。

数据集创建

生成方法: 使用 Stable Diffusion 模型生成大量合成图像，结合对象类别和各种干扰属性。
选择标准: 选择导致多个代理模型共同失败的挑战性图像作为最终数据集。
质量控制: 通过 Amazon Mechanical Turk 进行人工标注，确保图像有效且高质量。

数据集特点

挑战性: 揭示了当前视觉模型在鲁棒性方面的显著差距。
多样性: 比之前的合成基准（如 ImageNet-C、ImageNet-9 和 Stylized ImageNet）更具多样性和挑战性。
通用性: 合成图像能够很好地迁移到未见过的模型，揭示常见的失败模式。

数据收集和处理

图像生成: 使用 Stable Diffusion 模型根据用户定义的文本提示生成高保真图像。
提示设计: 设计一组提示，覆盖对象类别和干扰属性的矩阵组合。
标注: 每个生成的图像自动标注其对象类别，作为分类模型的评估基准。

数据源生产者

Chenshuang Zhang, Fei Pan, Junmo Kim, In So Kweon, Chengzhi Mao

引用

bibtex @article{zhang2024imagenet_d, author = {Zhang, Chenshuang and Pan, Fei and Kim, Junmo and Kweon, In So and Mao, Chengzhi}, title = {ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object}, journal = {CVPR}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

ImageNet-D数据集的构建采用了先进的扩散模型技术，通过结合对象类别与多种干扰属性，生成具有多样背景、纹理和材料的高质量合成图像。首先，利用Stable Diffusion模型根据用户定义的文本提示生成图像，这些提示明确指定了对象类别和干扰属性。随后，通过多轮筛选，选择出对多种视觉模型（如ResNet、ViT等）具有显著挑战性的图像，最终形成包含4835个样本的数据集。为确保图像质量，还通过亚马逊Mechanical Turk平台进行了人工标注和质量控制。

使用方法

使用ImageNet-D数据集时，首先需安装FiftyOne库，并通过Hugging Face平台加载数据集。用户可以通过简单的Python代码导入数据集，并利用FiftyOne提供的工具进行可视化与分析。数据集支持多种参数设置，如最大样本数等，用户可根据需求灵活调整。加载数据集后，可通过FiftyOne的应用程序界面进行交互式探索，进一步分析模型的性能与失败案例。

背景与挑战

背景概述

ImageNet-D数据集由KAIST、密歇根大学、麦吉尔大学和MILA等机构的研究团队于2024年推出，旨在通过扩散模型生成具有多样化背景、纹理和材质的合成图像，以评估视觉模型的鲁棒性。该数据集包含4835个高难度图像样本，这些图像能够显著降低包括ResNet、ViT、CLIP等在内的多种视觉模型的准确率，揭示了当前模型在面对复杂场景时的共同失败模式。ImageNet-D的创建标志着合成数据在模型鲁棒性测试中的进一步应用，为图像分类领域提供了更具挑战性的基准测试。

当前挑战

ImageNet-D数据集的核心挑战在于其生成的合成图像需要具备高度的真实性和多样性，以模拟现实世界中的复杂场景。在构建过程中，研究人员面临的主要挑战包括如何设计有效的文本提示以生成具有特定对象类别和干扰属性的图像，以及如何从大量生成的图像中筛选出最具挑战性的样本。此外，确保图像质量的控制和标签的准确性也是构建过程中的重要挑战。这些挑战不仅要求先进的生成模型技术，还需要精细的数据处理流程和人工验证机制，以确保数据集的有效性和可靠性。

常用场景

经典使用场景

ImageNet-D数据集主要用于评估和提升计算机视觉模型的鲁棒性。通过生成具有多样化背景、纹理和材质的合成图像，该数据集能够模拟现实世界中复杂的视觉场景，帮助研究人员测试模型在极端条件下的表现。经典使用场景包括图像分类任务中的模型鲁棒性测试，尤其是在面对合成图像时，模型的表现往往会出现显著下降，这为改进模型提供了重要参考。

解决学术问题

ImageNet-D数据集解决了当前计算机视觉模型在面对复杂合成图像时鲁棒性不足的问题。通过生成具有挑战性的合成图像，该数据集揭示了现有模型在分类任务中的常见失败模式，尤其是ResNet、ViT、CLIP等主流模型在面对多样化背景和纹理时的性能下降。这一数据集为研究人员提供了一个更为多样化和具有挑战性的测试平台，推动了模型鲁棒性研究的深入发展。

实际应用

在实际应用中，ImageNet-D数据集可用于开发和优化自动驾驶、安防监控等领域的视觉系统。这些系统需要在复杂多变的现实环境中保持高精度的图像识别能力。通过使用ImageNet-D数据集进行模型训练和测试，可以有效提升系统在面对复杂背景、光照变化和材质多样性时的鲁棒性，从而提高实际应用中的可靠性和安全性。

数据集最近研究