taesiri/imagenet-hard|图像分类数据集|ImageNet数据集
收藏hugging_face2023-06-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taesiri/imagenet-hard
下载链接
链接失效反馈资源简介:
ImageNet-Hard是一个包含10,980张图像的新基准数据集,这些图像来自多个现有的ImageNet规模基准(如ImageNet、ImageNet-V2、ImageNet-Sketch等)。该数据集对当前最先进的视觉模型提出了重大挑战,因为仅仅放大图像通常无法提高其分类准确性。即使是最先进的模型(如CLIP-ViT-L/14@336px)在该数据集上的表现也很差,准确率仅为2.02%。数据集支持的任务是图像分类,目标是将图像分类为1000个ImageNet类别中的一个或多个类别。数据集的语言为英语,数据实例包含图像、标签、来源和英文标签等字段。
ImageNet-Hard是一个包含10,980张图像的新基准数据集,这些图像来自多个现有的ImageNet规模基准(如ImageNet、ImageNet-V2、ImageNet-Sketch等)。该数据集对当前最先进的视觉模型提出了重大挑战,因为仅仅放大图像通常无法提高其分类准确性。即使是最先进的模型(如CLIP-ViT-L/14@336px)在该数据集上的表现也很差,准确率仅为2.02%。数据集支持的任务是图像分类,目标是将图像分类为1000个ImageNet类别中的一个或多个类别。数据集的语言为英语,数据实例包含图像、标签、来源和英文标签等字段。
提供机构:
taesiri
原始信息汇总
数据集概述
数据集名称: ImageNet-Hard
别名: ImageNet-Hard-4K
数据集大小: 1771418938.94字节
下载大小: 6380094503字节
样本数量: 10980
验证集大小: 1771418938.94字节
验证集样本数量: 10980
许可: MIT
任务类别: 图像分类
语言: 英语
标签: OOD, ImageNet, Out Of Distribution
数据集结构: 包含图像和标签信息
数据字段:
- image: 图像数据
- label: 标签,整数序列
- origin: 数据来源,字符串
- english_label: 英文标签,字符串序列
数据集详细信息
- 数据集来源: 由多个ImageNet规模的基准数据集(如ImageNet, ImageNet-V2, ImageNet-Sketch等)收集的10,980张图像组成。
- 数据集特点: 对当前最先进的视觉模型构成挑战,即使是高级模型如
CLIP-ViT-L/14@336px在该数据集上的准确率也仅为2.02%。 - 分类器性能: 提供了多个模型在该数据集上的准确率,如AlexNet为7.34%,VGG-16为12.00%等。
- 数据实例示例:
python { image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=575x409 at 0x7F09456B53A0>, label: [0], origin: imagenet_sketch, english_label: [tench] }
数据集使用
- 支持任务: 图像分类,目标是将图像分类到1000个ImageNet类别中。
- 数据字段说明:
- image: 图像数据,为PIL.Image.Image对象。
- label: 包含图像的标签,为整数列表。
- origin: 描述图像来源的数据集名称。
- english_label: 包含图像标签的英文描述,为字符串列表。
数据集版本
- ImageNet-Hard-4K: 关于4K版本的详细信息,请参考此链接。
AI搜集汇总
数据集介绍

构建方式
ImageNet-Hard数据集通过精心筛选和整合来自多个ImageNet相关基准的图像,构建了一个具有高度挑战性的图像分类基准。该数据集包含了10,980张图像,这些图像来源于ImageNet、ImageNet-V2、ImageNet-Sketch、ImageNet-C、ImageNet-R、ImageNet-ReaL、ImageNet-A和ObjectNet等多个数据集。通过这种方式,ImageNet-Hard旨在评估和挑战当前最先进的视觉模型,特别是那些在标准ImageNet数据集上表现优异的模型。
特点
ImageNet-Hard数据集的核心特点在于其图像的复杂性和多样性,这些图像往往对现有的视觉模型构成显著挑战。即使是最先进的模型,如CLIP-ViT-L/14@336px,在该数据集上的表现也仅为2.02%的准确率,显示出其极高的难度。此外,数据集中的每张图像都标注了来源数据集和英文标签,便于研究人员进行深入分析和模型评估。
使用方法
ImageNet-Hard数据集主要用于图像分类任务,研究人员可以通过该数据集评估和改进模型的分类性能。数据集提供了详细的图像和标签信息,用户可以直接访问图像数据并进行模型训练和测试。此外,数据集还提供了多种模型的评估代码和基准测试结果,方便研究人员进行对比和分析。通过这些资源,研究人员可以更好地理解和应对图像分类中的挑战性问题。
背景与挑战
背景概述
ImageNet-Hard数据集由Taesiri等人于2023年创建,旨在为图像分类领域提供一个极具挑战性的基准。该数据集汇集了来自多个现有ImageNet规模基准的10,980张图像,包括ImageNet、ImageNet-V2、ImageNet-Sketch等。其核心研究问题在于评估当前最先进的视觉模型在面对复杂图像时的分类能力。ImageNet-Hard的推出对图像分类领域产生了深远影响,揭示了现有模型在处理复杂图像时的局限性,推动了模型性能的进一步提升。
当前挑战
ImageNet-Hard数据集的主要挑战在于其图像的复杂性和多样性,这些图像往往难以通过简单的缩放操作进行正确分类。构建过程中,研究人员面临的主要挑战是如何从多个数据源中筛选出最具代表性和挑战性的图像,确保数据集的多样性和难度。此外,评估现有模型的性能时,研究人员发现即使是目前最先进的模型,如CLIP-ViT-L/14@336px,在该数据集上的准确率也仅为2.02%,这表明图像分类领域仍存在诸多未解决的技术难题。
常用场景
经典使用场景
ImageNet-Hard 数据集主要用于图像分类任务中的模型评估与改进。该数据集通过汇集来自多个 ImageNet 变体的 10,980 张图像,挑战了现有最先进的视觉模型。这些图像的复杂性和多样性使得模型在分类任务中表现不佳,尤其是在仅通过放大图像无法显著提升分类准确性的情况下。因此,该数据集成为评估和提升模型鲁棒性的重要工具,尤其是在处理分布外(OOD)数据时。
解决学术问题
ImageNet-Hard 数据集解决了现有图像分类模型在处理复杂和多样化图像时表现不佳的问题。通过提供一个具有挑战性的基准,该数据集促使研究人员开发更加鲁棒和泛化的模型。这对于提高模型在实际应用中的可靠性具有重要意义,尤其是在面对未见过的数据分布时。此外,该数据集还推动了对模型泛化能力的深入研究,为图像分类领域的进一步发展提供了新的方向。
衍生相关工作
基于 ImageNet-Hard 数据集,许多研究工作得以展开,特别是在模型鲁棒性和泛化能力方面的研究。例如,研究人员提出了多种方法来提升模型在分布外数据上的表现,包括数据增强、模型架构改进和自监督学习等。此外,该数据集还激发了对图像分类任务中数据分布偏移问题的深入探讨,推动了相关领域的理论和实践发展。这些衍生工作不仅丰富了图像分类领域的研究内容,也为实际应用提供了有力的技术支持。
以上内容由AI搜集并总结生成



