OpenCIL

Name: OpenCIL
Creator: 北京航空航天大学，新加坡管理大学，北京航空航天大学江西研究院
Published: 2024-07-09 20:14:47
License: 暂无描述

arXiv2024-07-09 更新2024-07-12 收录

下载链接：

https://github.com/mala-lab/OpenCIL

下载链接

链接失效反馈

官方服务：

资源简介：

OpenCIL数据集由北京航空航天大学和新加坡管理大学联合创建，旨在评估类增量学习模型在开放环境中检测分布外样本的能力。该数据集包含60个基线模型，使用CIFAR100和ImageNet1K两个流行CIL数据集以及六个常用OOD数据集。创建过程中，数据集结合了15种不同的OOD检测方法和四种代表性CIL模型。OpenCIL主要应用于安全关键的开放世界应用，如自动驾驶和医疗诊断，旨在解决模型在动态环境中对新旧类别样本的偏见问题。

The OpenCIL dataset was co-developed by Beihang University and Singapore Management University, aiming to evaluate the capability of class-incremental learning (CIL) models to detect out-of-distribution (OOD) samples in open environments. The dataset encompasses 60 baseline models, and leverages two popular CIL datasets (CIFAR-100 and ImageNet-1K) as well as six widely-used OOD datasets. During its development, the dataset integrates 15 distinct OOD detection methods and four representative CIL models. OpenCIL is primarily designed for safety-critical open-world applications such as autonomous driving and medical diagnosis, and aims to address the bias issue of models towards samples from both old and new categories in dynamic environments.

提供机构：

北京航空航天大学，新加坡管理大学，北京航空航天大学江西研究院

创建时间：

2024-07-08

原始信息汇总

OpenCIL 数据集概述

数据集描述

OpenCIL 是一个专门为类增量学习（CIL）模型中的事后和微调基于的分布外（OOD）检测方法设计的基准平台。它评估了 CIL 模型在拒绝各种 OOD 样本方面的能力。OpenCIL 提供了一个灵活的算法模板，允许用户轻松地在平台上实现他们独特的设计。此外，它提供了一个新的评估协议，以公平和系统地比较不同增量步骤中的各种 OOD 检测方法，并全面评估由 15 个 OOD 检测器和 4 个 CIL 模型组成的 60 个基线。我们还提出了一种新的基线方法 BER，可以有效缓解 60 个基线中的常见问题。

数据集下载和准备

数据集可以从以下链接下载：GDrive。下载后，将其解压到具有以下结构的 data 文件夹中：

├── data │ └── benchmark_imglist │ ├── cifar100 │ ├── imagenet │ └── images_classic │ ├── cifar10 │ ├── cifar100 │ ├── mnist │ ├── places365 │ ├── svhn │ ├── texture │ ├── tin │ └── images_largescale │ ├── imagenet_1k │ ├── train │ ├── val │ ├── imagenet_o │ ├── inaturalist │ ├── openimage_o │ ├── species_sub

注意：train.zip 和 val.zip 应存储在 imagenet_1k 文件夹中。

数据集解释

1. 用于训练类增量学习模型的 ID 数据集

训练类增量学习模型使用两个主要数据集：小规模数据集 cifar100 和大规模数据集 imagenet1k。训练此类模型需要将原始数据集拆分为多个任务，每个任务的数据样本形成与其他任务数据样本不相交的集合。

cifar100: 总共 100 个类别，有三种主要设置：
- 5 个任务：每个任务 20 个类别
- 10 个任务：每个任务 10 个类别
- 20 个任务：每个任务 5 个类别
- 每个任务的 exemplar 大小：2,000
imagenet1k: 总共 1000 个类别，有三种主要设置：
- 5 个任务：每个任务 200 个类别
- 10 个任务：每个任务 100 个类别
- 20 个任务：每个任务 500 个类别
- 每个任务的 exemplar 大小：20,000

2. 用于训练微调基于的 OOD 检测方法的数据集（可选）

在训练类增量学习模型后，我们可以冻结 CIL 模型的特征提取器，并微调一个额外的分类器以拒绝 OOD 样本，同时保持增量分类准确性。

3. 用于测试预训练或微调 CIL 模型的 OOD 数据集

在训练或微调类增量学习模型后，我们应使用其他 OOD 数据集测试其 OOD 检测性能。

小规模数据集: 在 cifar100 上训练 CIL 模型（100 个类别），然后在以下 OOD 数据集上进行测试：
- nearood: cifar10, tin
- farood: mnist, svhn, texture, places365
大规模数据集: 在 imagenet1k 上训练 CIL 模型（1000 个类别），然后在以下 OOD 数据集上进行测试：
- nearood: species, inaturalist, openimage_o, imagenet_o
- farood: texture, mnist

搜集汇总

数据集介绍

构建方式

OpenCIL数据集旨在评估在类增量学习（CIL）中检测异常值样本的能力。该数据集通过结合四种代表性的CIL模型和十五种不同的异常值检测方法，构建了六十个基线模型。这些模型在两个流行的CIL数据集和六个常用的异常值数据集上进行了评估。为了解决CIL模型在开放环境中对异常值样本和新添加类别的偏见问题，研究人员提出了一个名为双向能量正则化（BER）的新基线模型，该模型通过在旧类和新类上应用能量正则化来缓解这些偏见。

特点

OpenCIL数据集的主要特点在于其全面性和多样性。它不仅包含了多种CIL模型和异常值检测方法，还涵盖了近异常值和远异常值数据集，从而为评估CIL模型在开放环境中的性能提供了系统性的基准。此外，OpenCIL还提供了一个模块化的评估流程，使得研究人员可以轻松地检查不同CIL模型的异常值检测能力以及不同异常值检测器在灾难性遗忘情况下的表现。

使用方法

使用OpenCIL数据集的方法包括以下几个方面：首先，研究人员可以根据OpenCIL提供的评估协议，将不同的异常值检测方法应用于不同的CIL模型，并进行性能比较。其次，研究人员可以利用OpenCIL提供的模块化评估流程，轻松地检查CIL模型的异常值检测能力以及异常值检测器在灾难性遗忘情况下的表现。最后，研究人员可以利用OpenCIL提供的代码和数据集，轻松地重现实验结果并评估自己的数据集/模型。

背景与挑战

背景概述

随着深度神经网络在图像识别等领域的广泛应用，数据集的规模和复杂性不断提高。OpenCIL数据集由Beihang大学计算机科学与工程学院和新加坡管理大学计算与信息系统学院的研究人员共同创建，旨在解决类增量学习（CIL）中的分布外（OOD）检测问题。CIL旨在使模型能够逐步适应新类别，同时保留对旧类别的学习知识。然而，现有的CIL和OOD检测方法在开放环境中面临着识别和拒绝未知样本的挑战，这直接影响到CIL模型在自动驾驶、医疗诊断等现实应用中的安全性。OpenCIL数据集通过提供一个系统性和大规模的基准，评估了CIL模型在检测OOD样本方面的能力，填补了这一领域的空白。

当前挑战

OpenCIL数据集面临的挑战主要包括：1) 如何在CIL模型中有效地区分OOD样本和新增类别；2) 如何减少CIL模型在处理旧类别样本时由于灾难性遗忘（CF）导致的低预测置信度；3) 如何在保持CIL模型增量学习准确性的同时，提高OOD检测的性能。为了解决这些问题，OpenCIL数据集提出了双向能量正则化（BER）方法，通过在旧类别和新类别上分别进行能量正则化，有效降低了CIL模型对OOD样本和新增类别的偏见。此外，OpenCIL数据集还引入了两种原理框架，使15种不同的OOD检测方法能够轻松地集成到4种代表性的CIL模型中，从而构建了60个基准模型进行OOD检测。

常用场景

经典使用场景

OpenCIL 数据集在类增量学习（CIL）领域中，主要用于评估模型在面对新类别时维持旧类别学习知识的能力，并能够拒绝来自不同分布的未知样本。这在新类别不断涌现的现实世界应用中尤为重要，例如自动驾驶和医疗诊断。

衍生相关工作

OpenCIL 数据集的推出衍生了一系列相关研究，包括新的基准测试方法、改进的 CIL 模型和 OOD 检测方法。例如，双向能量正则化（BER）方法被提出，以解决 CIL 模型在增量学习步骤中出现的对未知样本和新类别的偏见问题。

数据集最近研究