Voxel51/ImageNet-D

Name: Voxel51/ImageNet-D
Creator: Voxel51
Published: 2025-02-10 22:50:58
License: 暂无描述

Hugging Face2025-02-10 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Voxel51/ImageNet-D

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet-D是一个使用扩散模型生成的合成图像数据集，旨在测试视觉模型的鲁棒性。该数据集包含4835个样本，这些样本导致多种视觉模型（如ResNet、ViT、CLIP、LLaVa和MiniGPT-4）的准确率显著下降。数据集的创建过程包括图像生成、提示设计和自动标注。图像生成使用Stable Diffusion模型，通过用户定义的文本提示生成高保真图像。提示设计覆盖了多种对象类别和干扰属性的组合。每个生成的图像都自动标注了对象类别，作为评估分类模型的真实标签。数据集的使用需要安装FiftyOne库，并通过Hugging Face Hub加载。

ImageNet-D is a new benchmark created using diffusion models to generate realistic synthetic images with diverse backgrounds, textures, and materials. The dataset contains 4,835 hard images that cause significant accuracy drops of up to 60% for a range of vision models. The creation process involves generating a large pool of synthetic images using the Stable Diffusion model, combining object categories with various nuisance attributes, and using Amazon Mechanical Turk for human labeling to ensure image quality and validity. Experiments show that ImageNet-D reveals significant robustness gaps in current vision models and that these synthetic images transfer well to unseen models, uncovering common failure modes.

提供机构：

Voxel51

原始信息汇总

ImageNet-D 数据集概述

基本信息

数据集名称: ImageNet-D
语言: 英语
样本数量: 4838
任务类别: 图像分类
标签: fiftyone, image, image-classification, synthetic

数据集描述

ImageNet-D 是一个使用扩散模型生成的新基准数据集，旨在生成具有多样背景、纹理和材料的逼真合成图像。该数据集包含 4835 张困难图像，这些图像导致多种视觉模型（如 ResNet、ViT、CLIP、LLaVa 和 MiniGPT-4）的准确率下降高达 60%。

数据集创建过程

图像生成: 使用 Stable Diffusion 模型生成高保真图像，基于用户定义的文本提示，指定对象类别和干扰属性。
提示设计: 设计了一系列提示，涵盖对象类别和干扰属性的矩阵组合。
标注: 每个生成的图像自动标注其对象类别，作为分类模型的评估基准。

数据集特点

挑战性: 揭示了当前视觉模型在鲁棒性方面的显著差距。
多样性: 提供了比现有合成基准（如 ImageNet-C、ImageNet-9 和 Stylized ImageNet）更广泛和更具挑战性的测试集。

数据来源

数据生产者: Chenshuang Zhang, Fei Pan, Junmo Kim, In So Kweon, Chengzhi Mao
资助机构: KAIST, University of Michigan, Ann Arbor, McGill University, MILA
许可证: MIT License

引用

bibtex @article{zhang2024imagenet_d, author = {Zhang, Chenshuang and Pan, Fei and Kim, Junmo and Kweon, In So and Mao, Chengzhi}, title = {ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object}, journal = {CVPR}, year = {2024}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，评估模型鲁棒性常需构建具有挑战性的测试集。ImageNet-D的构建依托于扩散模型生成技术，通过精心设计的文本提示，将特定物体类别与多样化背景、材质等干扰属性相结合，利用Stable Diffusion模型合成高保真图像。生成过程遵循公式Image(C, N) = StableDiffusion(Prompt(C, N))，确保图像在视觉真实性与多样性之间取得平衡。随后，基于多个代理模型的共享失败模式，从大规模合成图像池中筛选出最具挑战性的样本，并通过人工标注进行质量验证，最终形成包含4835个困难样本的数据集。

使用方法

使用ImageNet-D进行评估时，研究人员需首先安装FiftyOne库，并通过Python接口加载数据集。具体操作包括导入相应模块，调用load_from_hub函数获取数据，并可选择设置最大样本数等参数。加载后，可利用FiftyOne应用可视化浏览图像及其标注，或直接提取图像与类别标签用于模型测试。评估过程中，将模型预测类别与数据集提供的生成提示类别进行比对，统计分类准确率，从而量化模型在面对合成干扰时的性能衰减，为鲁棒性研究提供实证依据。

背景与挑战

背景概述

在计算机视觉领域，模型鲁棒性评估始终是核心研究议题。ImageNet-D数据集于2024年由KAIST、密歇根大学安娜堡分校、麦吉尔大学及MILA的研究团队联合创建，核心成员包括Chenshuang Zhang、Fei Pan、Junmo Kim、In So Kweon与Chengzhi Mao。该数据集旨在通过扩散模型生成具有多样化背景、纹理与材质的合成图像，系统性地揭示当前视觉模型在复杂场景下的泛化缺陷。其构建基于精心设计的文本提示矩阵，结合稳定扩散技术生成高保真图像，并利用人类标注进行质量控制，为模型鲁棒性研究提供了比ImageNet-C、ImageNet-9等传统基准更具挑战性的评估平台，对推动视觉系统的可靠性研究具有显著影响力。

当前挑战

ImageNet-D致力于解决图像分类模型在复杂合成场景下的鲁棒性评估难题，其核心挑战在于如何构建能够广泛揭示模型共性失败模式的测试集。具体而言，在领域问题层面，需克服合成图像与真实数据分布间的语义一致性保持、以及跨模型失败模式的可迁移性验证等困难。在构建过程中，挑战主要体现在扩散模型提示工程的精细化设计，需平衡对象类别与干扰属性的组合多样性；同时，从海量合成图像中筛选出能导致多模型共享性能下降的困难样本，亦依赖于高效的自动化评估与人工标注协同机制，确保数据集兼具挑战性与标注可靠性。

常用场景

经典使用场景

在计算机视觉领域，评估模型鲁棒性始终是核心挑战之一。ImageNet-D数据集通过扩散模型生成具有多样化背景、纹理和材质的合成图像，为研究者提供了一个经典测试平台。该数据集包含4835张困难图像，能够显著降低多种视觉模型的准确率，常用于系统性地检验模型在复杂合成场景下的泛化能力与失败模式。

解决学术问题

该数据集有效解决了视觉模型对合成扰动敏感性的量化难题。传统基准如ImageNet-C主要关注人工腐蚀类型，而ImageNet-D通过扩散技术构建更自然的类别-干扰组合，揭示了ResNet、ViT、CLIP等架构共有的鲁棒性缺陷。其意义在于建立了合成数据与模型脆弱性之间的关联，为设计抗干扰算法提供了精准的诊断工具。

实际应用

在实际部署中，自动驾驶与安防系统常面临复杂环境干扰。ImageNet-D模拟的多样化合成场景可直接用于压力测试，帮助工程师识别模型在极端纹理或背景下的决策漏洞。该数据集还能指导数据增强策略的优化，通过注入合成困难样本来提升工业级视觉系统的实际可靠性。

数据集最近研究