Med FoSSIL-Disjoint, Med FoSSIL-Mixed, Med Semi-Supervised-FoSSIL

github2025-10-18 更新2025-10-22 收录

下载链接：

https://github.com/anony34/FoSSIL

下载链接

链接失效反馈

官方服务：

资源简介：

Med FoSSIL-Disjoint：涉及跨会话的不相交类和医学领域（例如器官和肿瘤）的数据设置，使用3D U-Net骨干网络评估了现有的少样本、类增量和域增量方法。Med FoSSIL-Mixed：Med FoSSIL-Disjoint的变体，类和医学领域可能在会话中重新出现，同一会话中可能存在多个领域，评估了包括CLIP驱动架构和基于Transformer的骨干网络（如MedFormer和SwinUNetr）在内的各种骨干网络的鲁棒性。Med Semi-Supervised-FoSSIL：用于半监督学习的数据集，支持增量类的伪标签精炼和过滤错误高置信度预测。

Med FoSSIL-Disjoint: A data setup involving cross-session disjoint classes and medical domains (e.g., organs and tumors), where existing few-shot, class-incremental, and domain-incremental methods are evaluated using a 3D U-Net backbone. Med FoSSIL-Mixed: A variant of Med FoSSIL-Disjoint, where classes and medical domains may reoccur across sessions, and multiple domains may exist within a single session. It evaluates the robustness of various backbones including CLIP-driven architectures and Transformer-based backbones such as MedFormer and SwinUNetr. Med Semi-Supervised-FoSSIL: A dataset for semi-supervised learning, which supports pseudo-label refinement for incremental classes and filtering of erroneous high-confidence predictions.

创建时间：

2025-10-04

原始信息汇总

FoSSIL数据集概述

数据集简介

FoSSIL是一个用于2D和3D领域持续语义分割的统一框架数据集，专门解决类别和领域随时间演变的挑战性问题。

数据集构成

医学领域数据集

Med FoSSIL-Disjoint：涉及跨会话的不相交类别和医学领域（如器官和肿瘤）
Med FoSSIL-Mixed：Med FoSSIL-Disjoint的变体，类别和医学领域可能跨会话重现
Med Semi-Supervised-FoSSIL：Med FoSSIL-Disjoint的变体，每个增量类别都附带未标记数据

自然场景数据集

Natural-FoSSIL：包含多个自动驾驶领域，类别可能跨会话重现
Semi-Supervised Natural-FoSSIL：包含自然驾驶场景领域，增量类别可访问未标记数据

检测数据集

Detection：包含多领域目标检测数据

数据来源

医学基准数据集来源

TS (TotalSegmentator)
AMOS
BCV
BraTS
MOTS
VerSe

自然基准数据集来源

BDD
IDD
Cityscapes

检测数据集来源

COCO-O多领域数据集

会话设置

设置	Session 0 (基础)	Session 1	Session 2	Session 3	Session 4	Session 5
Med FoSSIL-Disjoint	15 (TS)	5 (AMOS)	6 (BCV)	4 (MOTS)	3 (BraTS)	4 (VerSe)
Med FoSSIL-Mixed	10 (AMOS)	8 (BCV, MOTS)	6 (TS, AMOS)	4 (MOTS, TS)	7 (BraTS, VerSe)	--
Med SS-FoSSIL	15 (TS)	5 (AMOS)	6 (BCV)	4 (MOTS)	3 (BraTS)	4 (VerSe)
Natural-FoSSIL	10 (BDD)	5 (IDD)	5 (BDD, IDD)	--	--	--
SS Natural-FoSSIL	10 (BDD)	2 (Cityscapes)	2 (IDD)	3 (IDD)	--	--

评估指标

分割任务：报告当前会话及之前会话所有类别的Dice系数和IoU平均值
检测任务：报告每个会话的mAP（平均精度均值）

数据特点

基础会话包含大量标记样本
增量会话（1-5）具有固定的K-shot标记样本和额外的未标记数据
在分割结果中，测试旧类别的遗忘和新类别的过拟合
使用固定K-shot标记样本进行整个训练过程

下载链接

Med FoSSIL-Disjoint：https://zenodo.org/records/17218309
Med FoSSIL-Mixed：https://zenodo.org/records/17297404
Natural-FoSSIL：https://zenodo.org/records/17255889
Detection：https://drive.google.com/file/d/1aBfIJN0zo_i80Hv4p7Ch7M8pRzO37qbq/view

搜集汇总

数据集介绍

构建方式

在医学影像语义分割领域持续学习的研究中，该数据集通过整合多个权威医学影像数据库构建而成，包括TotalSegmentator、AMOS、BCV等专业数据源。构建过程采用分阶段增量学习框架，每个会话引入新的器官或肿瘤类别及对应医学影像域，基础会话包含15个类别的标注数据，后续会话依次添加5至6个增量类别，并严格限定每类仅提供固定数量的标注样本以模拟真实临床数据稀缺场景。

特点

该数据集最显著的特征在于其多维度增量学习设定，既涵盖类别增量又涉及医学影像域的演变，同时融入半监督学习机制。数据分布呈现跨会话的类别不重叠特性，且每个增量类别仅配备少量标注样本，有效模拟临床实践中新病症数据持续积累但标注资源有限的挑战。其三维医学影像格式与多中心数据来源进一步增强了数据的异构性和临床代表性。

使用方法

研究者可通过标准化流程加载预处理后的医学影像数据，首先在基础会话上训练初始模型，随后依次在增量会话中利用有限标注样本进行微调。实验支持全监督与半监督两种模式，在半监督设定下可额外调用未标注数据提升模型泛化能力。评估时采用Dice系数和交并比指标，综合衡量模型对历史类别记忆保持与新增类别适应能力，所有实验均需在专用计算环境中配置相应依赖库执行。

背景与挑战

背景概述

随着医学影像分析技术的飞速发展，持续语义分割在二维与三维领域逐渐成为研究热点。Med FoSSIL系列数据集由匿名研究团队于2024年构建，旨在解决医学影像中类别与域随时间演变的复杂场景。该框架整合了TotalSegmentator、AMOS、BCV等六大权威医学数据集，通过构建跨器官与肿瘤分割的增量学习基准，推动了医学影像分析在动态环境下的算法创新。其创新性地将类别增量、域增量与少样本学习范式相融合，为医学影像的持续学习研究提供了重要基础设施。

当前挑战

在医学影像持续分割领域，模型需同时应对三大核心挑战：历史类别的灾难性遗忘、新类别样本稀缺导致的过拟合，以及跨域数据分布漂移问题。数据集构建过程中面临医学标注资源稀缺的困境，需在保持六大源数据集标注一致性的前提下，设计符合临床实践的场景演化序列。此外，三维医学影像的数据异构性与计算复杂度，进一步增加了跨域增量学习的实现难度，要求算法在有限标注条件下保持跨会话的稳定性与泛化能力。

常用场景

经典使用场景

在医学影像分析领域，Med FoSSIL系列数据集为持续语义分割研究提供了标准化的评估基准。这些数据集通过模拟真实医疗场景中类别和域随时间演化的特性，支持研究者评估模型在类增量、域增量和少样本学习等复杂条件下的表现。数据集采用分阶段学习设置，每个增量会话仅提供有限的标注样本，迫使模型在保持旧知识的同时适应新类别，这一设计精准反映了医疗实践中数据逐步积累的典型特征。

实际应用

在临床实践中，这些数据集支撑的技术可应用于多中心医疗协作场景。当医院引入新的影像设备或开展新的疾病筛查项目时，系统能够在不重新训练的前提下持续学习新器官或病变的分割知识。例如在肿瘤诊疗中，模型可逐步学习不同模态的MRI影像特征，适应从初级医院到专科医疗中心的域转移，显著提升医疗AI系统在真实环境中的适应性和使用寿命。

衍生相关工作

基于这些数据集衍生的经典工作包括GAPS少样本增量学习框架和C-FSCIL类增量方法，这些方法在医学影像分割任务中展现了优异的抗遗忘性能。同时激发了针对Transformer架构的持续学习改进，如MedFormer和SwinUNetr在混合域场景下的适应性研究。在自然场景领域，这些数据集还促进了SAM等基础模型在持续学习 setting 下的性能优化，为跨域持续学习提供了新的技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集