SOOD-ImageNet

Name: SOOD-ImageNet
Creator: 帕多瓦大学信息工程系
Published: 2024-09-02 17:37:39
License: 暂无描述

arXiv2024-09-02 更新2024-09-06 收录

下载链接：

https://github.com/bach05/SOODImageNet.git

下载链接

链接失效反馈

官方服务：

资源简介：

SOOD-ImageNet是由帕多瓦大学信息工程系创建的一个大规模数据集，旨在解决计算机视觉中的语义分布外（OOD）检测问题。该数据集包含约160万张图像，涵盖56个类别，适用于图像分类和语义分割任务。数据集的创建过程结合了现代视觉-语言模型的自动标注和人工校验，确保了数据的高质量和大规模。SOOD-ImageNet特别关注语义偏移问题，旨在评估模型在面对语义变化时的泛化能力，适用于自动驾驶、农业和废物管理等多个领域。

SOOD-ImageNet is a large-scale dataset developed by the Department of Information Engineering at the University of Padua, targeting the semantic out-of-distribution (OOD) detection task in computer vision. This dataset comprises approximately 1.6 million images across 56 categories, supporting both image classification and semantic segmentation tasks. The construction of SOOD-ImageNet integrates automatic annotation using modern vision-language models and manual verification, ensuring the high quality and large-scale reliability of the dataset. Specifically, SOOD-ImageNet focuses on the semantic shift problem, aiming to evaluate a model's generalization capability when encountering semantic variations, and is applicable to diverse domains including autonomous driving, agriculture, and waste management.

提供机构：

帕多瓦大学信息工程系

创建时间：

2024-09-02

搜集汇总

数据集介绍

构建方式

SOOD-ImageNet数据集的构建采用了创新的数据引擎，该引擎结合了现代视觉语言模型的能力，并辅以精确的人工检查。数据集的构建过程首先从ImageNet-21K-P中提取语义层次结构，然后利用视觉语言模型进行数据过滤、重新标记和评分。通过这种方式，数据集被分为训练集（IID）和测试集（OOD），测试集进一步分为“容易”和“困难”两部分，以反映不同程度的语义偏移。在语义分割任务的构建中，训练集的标签是通过CLIPSeg预训练模型自动生成的，而测试集的标签则由人工精心验证。

使用方法

SOOD-ImageNet数据集的使用方法包括将其用于图像分类和语义分割任务的训练和评估。用户可以将数据集分为训练集和测试集，并根据需要进一步将测试集分为“容易”和“困难”两部分。此外，数据引擎的灵活性允许用户调整超参数以创建具有不同语义偏移和粒度的不同分割，以满足特定的研究需求。

背景与挑战

背景概述

SOOD-ImageNet是一个大规模的数据集，旨在解决计算机视觉领域中图像分类和语义分割任务在语义分布外（Semantic Out-Of-Distribution, SOOD）条件下的泛化问题。该数据集由意大利帕多瓦大学信息工程系的研究人员Alberto Bacchin, Davide Allegro, Stefano Ghidoni和Emanuele Menegatti创建，于2024年9月发布。SOOD-ImageNet包含了大约160万张图片，涵盖了56个类别，特别关注语义分布变化的问题。该数据集的创建旨在弥补现有数据集在语义分布变化和规模方面的不足，以促进计算机视觉领域模型泛化能力的研究。

当前挑战

SOOD-ImageNet面临的主要挑战包括：1)解决语义分布外泛化的问题，即模型在面对与训练数据分布不同的测试数据时，能够正确分类或分割图像的能力；2)构建数据集时，如何确保数据的质量和规模，同时考虑到语义分布变化的复杂性。为了解决这些挑战，研究人员开发了一种创新的数据引擎，该引擎结合了现代视觉语言模型和人工检查的能力，以确保数据的准确性和规模。然而，实验结果表明，即使是大型视觉语言模型在处理语义分布外泛化问题时也表现不佳，这表明SOOD泛化仍然是一个开放性问题，需要进一步的研究和开发。

常用场景

经典使用场景

SOOD-ImageNet数据集主要用于评估深度学习模型在语义分布外（Semantic Out-Of-Distribution, SOOD）场景下的泛化能力。该数据集包含约160万张图像，涵盖56个类别，旨在模拟现实世界中的数据分布变化，特别是语义变化。通过将数据集分为训练集和测试集，并进一步将测试集细分为“简单”和“困难”两个部分，SOOD-ImageNet为研究者提供了一个评估模型在面对未知类别和语义变化时的性能的平台。数据集的这种设计使得研究人员可以更全面地理解模型在语义分布外场景下的行为，并据此开发出更具鲁棒性的模型。

解决学术问题

SOOD-ImageNet数据集旨在解决现有分布外（Out-of-Distribution, OOD）数据集的两个主要局限性：忽视语义变化作为潜在挑战，以及规模有限。通过引入语义变化的概念，并构建一个包含大规模图像的数据集，SOOD-ImageNet为研究人员提供了一个能够更准确地模拟现实世界中数据分布变化的工具。此外，数据集的规模和多样性也使得模型能够在更广泛的类别上进行训练和评估，从而提高其泛化能力。SOOD-ImageNet的出现填补了现有数据集在语义分布外泛化评估方面的空白，对于推动计算机视觉领域的研究具有重要意义。

实际应用

SOOD-ImageNet数据集的实际应用场景包括自动驾驶、农业和废物管理等领域。在这些领域中，模型需要能够准确识别出训练数据集中未出现的类别，例如在自动驾驶中识别出新的交通标志，或者在农业中识别出未知的杂草。SOOD-ImageNet数据集可以帮助研究人员开发出能够更好地适应现实世界中数据分布变化的模型，从而提高这些应用场景中的模型性能和鲁棒性。

数据集最近研究