COVID-19 CT Lung and Infection Segmentation Dataset

Name: COVID-19 CT Lung and Infection Segmentation Dataset
Creator: 南京理工大学数学系
Published: 2020-12-03 19:21:07
License: 暂无描述

arXiv2020-12-03 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/3757476

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-19 CT Lung and Infection Segmentation Dataset是由南京理工大学数学系的马军团队创建的，包含70个经过专业标注的COVID-19病例。该数据集主要用于评估和开发针对COVID-19肺部和感染区域的高效深度学习分割方法。数据集中的每个病例都由经验丰富的放射科医生进行了详细的肺部和感染区域的标注，旨在为研究者提供一个标准化的基准，以促进数据高效学习方法的发展。该数据集的应用领域主要集中在医学图像处理，特别是COVID-19的CT图像分析，旨在解决如何在有限的数据条件下提高肺部和感染区域分割的准确性和效率问题。

The COVID-19 CT Lung and Infection Segmentation Dataset was developed by the team led by Ma Jun from the Department of Mathematics, Nanjing University of Science and Technology, and it contains 70 professionally annotated COVID-19 cases. This dataset is primarily designed to evaluate and develop efficient deep learning segmentation methods for COVID-19 lung and infection regions. Each case in the dataset has undergone detailed annotation of lung and infection regions by experienced radiologists, aiming to provide researchers with a standardized benchmark to promote the advancement of data-efficient learning methods. The application fields of this dataset mainly focus on medical image processing, particularly COVID-19 CT image analysis, with the goal of solving the problem of improving the accuracy and efficiency of lung and infection region segmentation under limited data conditions.

提供机构：

南京理工大学数学系

创建时间：

2020-04-27

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，COVID-19 CT Lung and Infection Segmentation Dataset的构建体现了对数据高效学习需求的响应。该数据集基于70例标注的COVID-19 CT病例，通过多阶段人工标注流程精心构建：首先由初级标注员初步勾画左肺、右肺及感染区域，随后由两位经验丰富的放射科医师进行细化，最终由资深胸部放射学专家验证与修正。所有标注均在ITK-SNAP软件中逐层手动完成，平均每例CT扫描（约250层）耗时约400分钟，确保了标注的高精度与临床相关性。数据集整合了来自公开资源的20例COVID-19 CT扫描，并采用CC BY-NC-SA许可公开，为后续研究提供了可靠基础。

使用方法

该数据集的使用方法围绕其三个基准任务展开，旨在推动有限数据下的深度学习研究。对于少样本学习任务，研究者可利用少量COVID-19标注病例（如4例训练）开发分割模型，并通过5折交叉验证评估性能。在领域泛化任务中，模型仅使用非COVID-19肺部CT数据（如StructSeg或NSCLC数据集）进行训练，随后在COVID-19数据上测试泛化能力。知识迁移任务则允许混合使用COVID-19与非COVID-19数据，以探索跨域知识融合策略。数据集中提供的40余个预训练基线模型（基于nnU-Net）可作为即用工具或研究起点，配套的公开代码与评估脚本进一步简化了实验流程，促进方法创新与比较。

背景与挑战

背景概述

在新冠疫情全球蔓延的背景下，计算机断层扫描（CT）影像成为诊断与监测COVID-19肺炎的关键工具。2020年，由南京理工大学、南京大学、中国科学院等机构的研究人员联合构建了COVID-19 CT Lung and Infection Segmentation Dataset，旨在推动基于有限标注数据的深度学习研究。该数据集包含70例标注完整的COVID-19 CT扫描，精细划分了左肺、右肺及感染区域，核心研究问题聚焦于在标注资源稀缺环境下实现精准的肺部与感染区域分割。这一公开数据集的建立，为医学影像分析领域提供了首个面向数据高效学习的基准测试平台，显著促进了小样本学习、领域泛化与知识迁移等前沿方向的发展，对COVID-19定量化诊疗研究产生了深远影响。

当前挑战

该数据集致力于解决COVID-19 CT影像中肺部与感染区域分割的领域挑战，其核心在于如何在标注数据极度有限的约束下，提升分割模型的泛化能力与鲁棒性。具体而言，感染区域分割面临显著困难：感染病灶形态多变、边界模糊、尺寸差异大，且与正常组织对比度低，导致模型易漏检小病灶或弱边界感染。在数据集构建过程中，挑战同样突出：三维CT标注依赖放射科医生逐层手动勾画，单例耗时约400分钟，专业门槛高、工作量大；同时，现有研究多基于私有数据，缺乏公开统一的基准，导致方法对比困难。此外，跨域数据融合时，非COVID-19肺部病变数据与COVID-19感染数据间的分布差异显著，直接混合训练易引入偏差，加剧模型适应新域的难度。

常用场景

经典使用场景

在医学影像分析领域，COVID-19 CT Lung and Infection Segmentation Dataset 为研究者提供了一个标准化的基准平台，用于评估和比较不同深度学习模型在有限标注数据下的性能。该数据集通过精心设计的三个基准任务——少样本学习、领域泛化和知识迁移——系统探索了在COVID-19 CT影像中分割肺部和感染区域的挑战。这些任务模拟了实际临床环境中数据稀缺的常见场景，使得研究者能够针对数据高效学习策略进行方法创新与验证。

解决学术问题

该数据集有效解决了医学影像分割中因标注数据稀缺而导致的模型泛化能力不足问题。通过提供公开且高质量的三维CT标注数据，它促进了少样本学习、跨领域适应和迁移学习等前沿研究方向的发展。其统一的评估标准和预训练基线模型消除了以往研究因数据划分和度量不统一而难以公平比较的障碍，为开发高效、鲁棒的COVID-19自动诊断工具奠定了坚实的学术基础。

实际应用

在实际临床应用中，该数据集支持开发快速部署的COVID-19辅助诊断系统。基于其预训练模型，医疗机构能够在有限标注资源下实现肺部感染区域的自动量化分析，从而辅助医生评估病情严重程度、监测疾病进展及治疗效果。这种数据高效的学习框架尤其适用于疫情初期或资源匮乏环境，能够显著减轻放射科医师的手动标注负担，提升诊疗效率与一致性。

数据集最近研究