LifeLonger

Name: LifeLonger
Creator: 阿姆斯特丹大学
Published: 2022-06-30 19:45:09
License: 暂无描述

arXiv2022-06-30 更新2024-06-21 收录

下载链接：

https://github.com/mmderakhshani/LifeLonger

下载链接

链接失效反馈

官方服务：

资源简介：

LifeLonger是一个专为持续疾病分类设计的基准数据集，由阿姆斯特丹大学创建。该数据集基于MedMNIST集合，包含四个子集：BloodMNIST、OrganaMNIST、PathMNIST和TissueMNIST，总计涉及多种医学图像数据。创建过程中，数据集被标准化和分割，以适应持续学习的需求。LifeLonger主要应用于医学图像分析领域，旨在通过持续学习方法提高疾病分类的准确性和效率，解决模型在新数据到来时需要重新训练的问题。

LifeLonger is a benchmark dataset specifically designed for continual disease classification, developed by the University of Amsterdam. This dataset is based on the MedMNIST collection, which includes four subsets: BloodMNIST, OrganaMNIST, PathMNIST, and TissueMNIST, encompassing a wide range of medical image data. During its development, the dataset was standardized and split to meet the requirements of continual learning. Primarily applied in the field of medical image analysis, LifeLonger aims to improve the accuracy and efficiency of disease classification via continual learning methods, and resolve the issue where models need retraining when new data arrives.

提供机构：

阿姆斯特丹大学

创建时间：

2022-04-12

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，面对临床数据持续增长与多源异构的挑战，LifeLonger基准的构建旨在推动持续学习在疾病分类中的应用。该数据集基于MedMNIST集合，选取了BloodMNIST、OrganaMNIST、PathMNIST和TissueMNIST四个标准化医学影像数据集，涵盖血液、器官、病理和组织等多模态图像。所有图像均被归一化并缩放至28×28像素，以支持高效计算。数据集的构建通过将每个数据集的标签空间划分为互不相交的子集，形成一系列连续任务，从而模拟真实临床环境中数据流的顺序到达。这一设计使得模型能够在不重新训练的前提下，逐步学习新样本并保留历史知识。

特点

LifeLonger基准的显著特点在于其全面覆盖了三种持续学习场景：任务增量学习、类别增量学习以及新引入的跨域增量学习。任务增量学习允许模型在已知任务标识符的情况下进行分类，而类别增量学习则更具挑战性，要求模型在不明确任务归属的情况下处理所有已见类别。跨域增量学习特别针对不同医疗机构或设备产生的数据集，旨在促进知识在异构域间的迁移。此外，数据集提供了详细的评估指标，包括平均准确率和平均遗忘率，以量化模型在持续学习过程中的性能表现与知识保留能力。这些特点共同构成了一个贴近临床实际、层次丰富的评估框架。

使用方法

使用LifeLonger基准时，研究者首先需下载公开的代码库和数据分区，并基于提供的基线方法进行实验。基准支持多种持续学习策略，包括正则化方法、回放方法和偏差校正方法，如弹性权重巩固、无遗忘学习和增量分类器表示学习等。用户可按照定义的连续任务序列训练模型，每个任务仅使用对应数据子集，并通过离线增量学习方式更新网络参数。评估阶段需计算模型在全部任务上的平均准确率，同时监测遗忘程度以分析灾难性遗忘现象。该基准还鼓励探索跨域场景下的知识迁移效果，为改进医学影像分类模型的鲁棒性和适应性提供实证基础。

背景与挑战

背景概述

在医学影像分析领域，深度学习模型虽在疾病识别方面展现出显著效能，却难以适应临床环境中数据流的动态演变。由阿姆斯特丹大学与Inception人工智能研究所的研究团队于2022年提出的LifeLonger基准，旨在应对这一挑战。该数据集基于MedMNIST医学图像集合构建，专注于持续学习框架下的多类疾病分类，其核心研究问题在于使模型能够在不遗忘已有知识的前提下，顺序学习来自不同来源的新标注数据。LifeLonger通过引入任务增量学习、类增量学习及创新的跨域增量学习三种场景，为医学影像的持续学习研究奠定了重要基础，推动了临床诊断模型向更高效、鲁棒的方向演进。

当前挑战

LifeLonger数据集所针对的领域挑战，主要集中于医学影像疾病分类中的持续学习问题。具体而言，模型需克服灾难性遗忘现象，即在顺序学习新任务时，对先前任务性能的显著下降。此外，临床环境中数据来源多样，包括不同医疗机构或成像设备，导致数据分布差异，这要求模型具备跨域知识迁移能力。在数据集构建过程中，挑战体现在如何将MedMNIST中的多类疾病数据集合理划分为不相交的任务序列，并设计评估指标以量化平均精度与遗忘程度，同时确保基准的标准化与可复现性，以支持后续研究的公平比较。

常用场景

经典使用场景

在医学影像分析领域，LifeLonger数据集为持续学习范式提供了标准化评估框架，其经典使用场景聚焦于多类疾病分类任务。该数据集基于MedMNIST集合构建，涵盖血液、器官、病理和组织等多种医学影像模态，通过模拟临床环境中数据流的动态变化，支持模型在任务增量、类别增量及跨域增量学习场景下的性能验证。研究者可利用该基准测试现有持续学习算法在医学图像分类中的适应性，评估模型在接收新数据时保持旧知识的能力，从而推动智能诊断系统的演进。

衍生相关工作

LifeLonger数据集的推出催生了一系列针对医学持续学习的创新研究。基于其基准测试，学者们进一步优化了如iCaRL等排练式方法在疾病分类中的性能，并探索了正则化与偏差校正技术的跨域适应性。后续工作扩展了该数据集的场景，例如结合生成对抗网络合成历史数据以缓解遗忘，或引入元学习策略增强模型跨任务泛化能力。这些衍生研究不仅深化了对医学图像持续学习机制的理解，也推动了如自适应分割、多模态诊断等方向的发展，形成了以LifeLonger为核心的医学持续学习研究生态。

数据集最近研究