Semantic Shift Benchmark (SSB)

Name: Semantic Shift Benchmark (SSB)
Creator: 香港大学、牛津大学
Published: 2024-08-30 10:26:01
License: 暂无描述

arXiv2024-08-30 更新2024-09-04 收录

下载链接：

https://github.com/Visual-AI/Dissect-OOD-OSR

下载链接

链接失效反馈

官方服务：

资源简介：

Semantic Shift Benchmark (SSB) 是一个新提出的大规模数据集，旨在评估机器学习模型在语义偏移下的表现。该数据集利用了ImageNet-1K作为‘已见’封闭集数据，并从ImageNet-21KP中精心挑选了‘未见’数据。SSB的创建过程涉及对语义偏移的细致分析和数据选择，主要应用于检测和识别开放集中的未知类别，以提高模型的泛化能力和鲁棒性。

Semantic Shift Benchmark (SSB) is a newly proposed large-scale dataset designed to evaluate the performance of machine learning models under semantic shift. This dataset takes ImageNet-1K as the "seen" closed-set data, and carefully selects "unseen" data from ImageNet-21KP. The creation of SSB involves meticulous analysis of semantic shift and data selection procedures, and its main application scenario is to detect and recognize unknown categories in open sets, so as to improve the generalization ability and robustness of machine learning models.

提供机构：

香港大学、牛津大学

创建时间：

2024-08-30

原始信息汇总

数据集概述

数据集描述

该数据集用于评估和分析在分布外检测（OOD）和开放集识别（OSR）领域的不同方法和基准。数据集包括多个标准基准和提出的SSB基准，用于跨基准测试。

数据集内容

标准基准

提出的SSB基准

数据集准备

对于TinyImageNet，需要运行create_val_img_folder脚本以创建包含测试数据的目录。

开放集分割

提出的开放集基准的类分割信息存储在data/open_set_splits目录中，格式为.pkl文件。对于FGVC数据集，文件还包含开放集类与封闭集类的相似性信息。

配置

需要设置config.py中的数据集和预训练模型路径，以及train_configs.yaml中的默认训练配置。

使用脚本

训练模型

运行指定数据集的训练脚本，如： bash bash bash_scripts/new_bash/train/xxx.sh

评估模型

运行评估脚本以验证不同的评分规则，如： bash bash bash_scripts/new_bash/eval/xxx.sh

搜集汇总

数据集介绍

构建方式

Semantic Shift Benchmark (SSB) 数据集的构建方式旨在分离和评估语义偏移，这是开放集识别（OSR）的一个关键方面。数据集使用了 ImageNet-1K 数据集作为 '已知的闭合集数据'，并从 ImageNet-21KP 数据集中精心选择了 '未知的' 数据作为 '未见的' 数据。这种设计允许研究者专注于评估模型在遇到新类别时的性能，而不会受到其他类型分布偏移的干扰。

特点

SSB 数据集的主要特点是它明确区分了语义偏移和协变量偏移，这是两种不同的分布偏移类型。语义偏移涉及模型遇到训练集中未出现的新类别，而协变量偏移则是指测试图像的语义保持不变，但其他特征发生变化。SSB 数据集通过使用 ImageNet-SSB 和 CUB-SSB 数据集来专门评估语义偏移，并使用 ImageNet-C 和 ImageNet-R 数据集来展示与标准 ImageNet 数据集相关的分布偏移。

使用方法

SSB 数据集的使用方法包括训练和评估模型在处理语义偏移方面的能力。研究者可以使用 SSB 数据集来训练和测试他们的模型，以评估模型在遇到训练集中未出现的新类别时的表现。此外，研究者还可以使用 SSB 数据集来研究模型如何响应不同类型的分布偏移，并探索提高模型鲁棒性和检测能力的方法。

背景与挑战

背景概述

在机器学习模型中，如何检测测试时样本分布的偏移已成为一个关键的研究问题。近年来，该问题在不同的领域中得到了广泛的探讨。本文旨在提供对两个最大子领域：离群值检测（OOD）和开放集识别（OSR）的统一观点。特别是，我们旨在提供不同方法在不同设置下的严格实证分析，并为从业者和研究人员提供可操作的启示。具体来说，我们做出了以下贡献：(i) 我们在OOD检测和OSR设置中对最先进的方法进行了严格的交叉评估，并确定了它们之间性能的强相关性；(ii) 我们提出了一种新的、大规模的基准设置，我们认为它更好地分离了OOD检测和OSR所解决的问题，并在该设置中重新评估了最先进的OOD检测和OSR方法；(iii) 我们惊人地发现，在标准基准上表现最好的方法（Outlier Exposure）在测试规模时表现不佳，而敏感于深度特征幅度的得分规则始终表现出前景；(iv) 我们进行实证分析来解释这些现象，并突出未来研究的方向。

当前挑战

该数据集相关的挑战包括：1) 所解决的领域问题的挑战；2) 构建过程中所遇到的挑战。具体来说，离群值检测（OOD）和开放集识别（OSR）是两个重要的子领域，它们都旨在解决测试样本与训练集分布不同的问题。然而，这两个子领域的研究往往独立进行，缺乏思想交流。尽管许多先前的工作已经认识到这两个子领域的相似性，但很少有基准测试来理解它们之间的相似性和差异性。此外，构建大规模基准时，如何有效地分离语义偏移和协变量偏移也是一个挑战。最后，如何选择合适的辅助数据以优化离群值检测性能也是一个重要的研究问题。

常用场景

经典使用场景

Semantic Shift Benchmark (SSB) 数据集被广泛用于研究和评估机器学习模型在语义偏移情况下的性能。它通过提供一组精心挑选的未见过的语义类别数据，帮助研究人员测试和改进模型的开放集识别能力。SSB 数据集的经典使用场景包括对各种开放集识别方法进行基准测试，以评估它们在处理未见过的语义类别时的准确性。此外，SSB 还被用于研究模型如何对不同类型的分布偏移（如语义偏移和协变量偏移）进行响应，从而为模型的鲁棒性和泛化能力提供有价值的见解。

衍生相关工作

SSB 数据集衍生了大量的相关研究工作，例如对各种开放集识别方法的基准测试，以及研究模型如何对不同类型的分布偏移（如语义偏移和协变量偏移）进行响应。此外，SSB 还被用于开发新的开放集识别方法，以提高模型的鲁棒性和泛化能力。

数据集最近研究