ImageNet-1K

Name: ImageNet-1K
Creator: 谢里夫科技大学
Published: 2023-07-31 17:08:49
License: 暂无描述

arXiv2023-07-31 更新2024-07-31 收录

下载链接：

https://github.com/ckoorosh/RobuText

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet-1K是由谢里夫科技大学创建的大型图像分类数据集，包含1000个对象类别和50000张验证图像。数据集基于WordNet的层次结构，每个类别平均约有1000张图像。该数据集通过使用扩散模型进行编辑，以创建更具现实感的图像损坏，用于评估图像分类器的鲁棒性。数据集主要应用于图像分类器的鲁棒性测试，特别是在面对语言引导的图像损坏时的性能评估。

ImageNet-1K is a large-scale image classification dataset created by Sharif University of Technology. It includes 1000 object categories and 50,000 validation images. Built upon the hierarchical structure of WordNet, the dataset has an average of approximately 1,000 images per category. This dataset is edited using diffusion models to generate more realistic image corruptions, which are utilized to evaluate the robustness of image classifiers. It is primarily applied for robustness testing of image classifiers, especially for performance assessment when facing language-guided image corruptions.

提供机构：

谢里夫科技大学

创建时间：

2023-04-06

原始信息汇总

数据集概述

摘要

本研究调查了图像分类器对文本引导损坏的鲁棒性。我们利用扩散模型将图像编辑到不同的领域。与其他使用合成或手工挑选数据进行基准测试的工作不同，我们使用扩散模型，因为它们是能够学习在保留图像语义内容的同时编辑图像的生成模型。因此，损坏将更加真实，比较将更加有信息量。此外，无需手动标记，我们可以用较少的努力创建大规模基准。我们基于原始ImageNet层次结构定义了一个提示层次结构，以在不同领域应用编辑。除了引入新的基准外，我们还尝试调查不同视觉模型的鲁棒性。本研究的结果表明，图像分类器在不同语言基础的损坏和编辑领域中的性能显著下降。我们还观察到卷积模型比变换器架构更鲁棒。此外，我们发现常见的数据增强技术可以提高原始数据和编辑图像的性能。这项研究的发现可以帮助改进图像分类器的设计，并有助于开发更鲁棒的机器学习系统。

数据生成

可以使用以下命令生成文本引导基准： bash python generate_data.py --dataset_path /imagenet/val --output_path data-100-10 --num_classes 100 --num_images 10 --sub_class all --seed 10

请注意，您需要使用dataset_path参数指定ImageNet数据集路径。

模型评估

可以使用以下命令运行评估代码： bash python evaluate.py --data_path ./data-100-10/ --output_path data-100-10

搜集汇总

数据集介绍

构建方式

ImageNet-1K数据集的构建方式独具匠心，研究者们利用扩散模型来编辑图像，使其适应不同的领域。与以往使用合成数据或手工挑选数据进行基准测试的做法不同，扩散模型作为一种生成模型，能够在编辑图像的同时保留其语义内容，从而使得数据集更加真实可靠。此外，由于无需手动标注，研究者们能够以更少的努力创建大规模的基准测试。

使用方法

使用ImageNet-1K数据集的方法主要包括两个方面：一是作为基准测试数据集，用于评估不同视觉模型的鲁棒性；二是作为数据增强工具，通过将模型在编辑后的图像上进行训练，提高模型在真实世界场景下的表现。在使用过程中，用户可以根据需要选择不同的编辑领域和编辑提示，以适应不同的应用场景。

背景与挑战

背景概述

ImageNet-1K数据集是图像分类领域的一个标志性数据集，由Jia Deng等人于2009年创建。该数据集包含1000个对象类别，每个类别平均有1000张图像。ImageNet-1K的类目基于WordNet的层次结构，旨在为图像分类提供大规模的基准测试。ImageNet-1K对图像分类领域产生了深远的影响，推动了深度学习技术的发展，特别是在卷积神经网络（CNN）的研究和应用方面。ImageNet-1K的创建为研究人员提供了一个标准化的测试平台，用于评估和比较不同图像分类模型的性能。

当前挑战

尽管ImageNet-1K在图像分类领域取得了显著进展，但其鲁棒性仍然面临挑战。研究表明，即使是微小的图像变化也可能显著影响图像分类器的性能。此外，现有的基准测试和训练数据集并未涵盖所有可能的现实世界情况，如天气变化、颜色和纹理变化或上下文变化。因此，研究人员需要开发新的基准测试来评估图像分类器在文本引导的图像编辑下的鲁棒性。这些挑战包括：1)图像分类器对文本引导的图像编辑的鲁棒性评估；2)在构建过程中，如何确保图像编辑的语义内容得以保留；3)如何创建大规模的基准测试数据集，以便更有效地评估和比较不同图像分类模型的性能。

常用场景

经典使用场景

ImageNet-1K数据集作为计算机视觉领域内最著名的图像分类数据集之一，被广泛用于图像分类器的训练与评估。通过提供大规模、高质量的图像数据，该数据集为研究人员提供了评估和改进图像分类模型性能的平台。此外，ImageNet-1K数据集还常被用于研究图像分类器的鲁棒性，通过对图像进行不同领域的文本引导编辑，评估分类器在面对现实世界中可能出现的各种噪声和篡改时的性能。

解决学术问题

ImageNet-1K数据集解决了图像分类器在现实世界中可能出现的各种噪声和篡改下的鲁棒性问题。通过对图像进行不同领域的文本引导编辑，研究人员可以评估分类器在面对现实世界中可能出现的各种噪声和篡改时的性能，从而发现分类器的局限性并改进其设计。此外，ImageNet-1K数据集还提供了大规模、高质量的图像数据，为研究人员提供了评估和改进图像分类模型性能的平台。

实际应用

ImageNet-1K数据集在实际应用中，被广泛应用于各种图像分类任务，如物体识别、医学诊断和自动驾驶等。通过对图像进行不同领域的文本引导编辑，研究人员可以评估分类器在面对现实世界中可能出现的各种噪声和篡改时的性能，从而提高分类器在实际应用中的鲁棒性和可靠性。此外，ImageNet-1K数据集还常被用于研究和开发新的数据增强技术，以提高图像分类器在面对不同领域噪声和篡改时的性能。

数据集最近研究