COVIDx CT-3

Name: COVIDx CT-3
Creator: 滑铁卢大学
Published: 2022-11-16 21:09:28
License: 暂无描述

arXiv2022-11-16 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.03043v3

下载链接

链接失效反馈

官方服务：

资源简介：

COVIDx CT-3是由滑铁卢大学创建的一个大规模跨国开放源胸部CT图像数据集，旨在辅助COVID-19的计算机辅助筛查。该数据集包含来自至少17个国家的6,068名患者的431,205张CT切片，是目前最大的开放访问COVID-19 CT图像数据集。数据集通过多种CT扫描仪和协议从全球多个数据源精心处理和策划而成。COVIDx CT-3主要用于支持机器学习驱动的筛查系统开发，帮助临床医生区分COVID-19肺炎与其他病因的肺炎。尽管数据集在多样性上有所努力，但仍存在显著的地理和类别不平衡问题。

COVIDx CT-3 is a large-scale multinational open-source chest CT image dataset created by the University of Waterloo, aiming to assist computer-aided screening of COVID-19. It contains 431,205 CT slices from 6,068 patients across at least 17 countries, making it the largest publicly accessible COVID-19 CT image dataset to date. The dataset was meticulously processed and curated from multiple global data sources using a diverse range of CT scanners and imaging protocols. Primarily intended to support the development of machine learning-driven screening systems, it helps clinicians distinguish COVID-19 pneumonia from pneumonia caused by other etiologies. Despite efforts to improve diversity, the dataset still exhibits significant geographic and class imbalance issues.

提供机构：

滑铁卢大学

创建时间：

2022-06-07

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量数据集对于推动计算机辅助诊断系统的发展至关重要。COVIDx CT-3数据集通过整合全球多个公开数据源，包括中国国家生物信息中心、美国国立卫生研究院等11个机构的资源，精心筛选了来自至少17个国家的6,068名患者的431,205张胸部CT切片。数据标注采用了三种策略：基于分割掩码的自动标注、非专家手动标注以及预训练模型辅助标注，确保了标签的多样性与可靠性，同时将自动与非专家标注的数据限定于训练集，验证集与测试集则完全由专家手动标注，以保障评估的严谨性。

特点

该数据集以其规模与多样性著称，成为目前公开领域中最大的COVID-19胸部CT影像基准。其特点体现在多国数据源的广泛覆盖，尽管存在显著的地理与类别不平衡，例如中国患者占比42.2%，且COVID-19类别的影像占总体73.4%。数据集中包含三类感染类型：COVID-19、社区获得性肺炎与正常对照，为模型提供了丰富的学习样本。此外，数据分割遵循约84%训练、8%验证与8%测试的比例，验证集与测试集在类别分布上相对均衡，有助于客观评估模型性能。

使用方法

研究人员可利用该数据集开发与验证基于深度学习的COVID-19筛查模型。使用时应首先关注训练集中的类别不平衡问题，建议采用平衡损失函数或数据重采样技术以优化模型训练。在评估阶段，需结合验证集与测试集的专家标注数据，通过计算各类别的精确率与召回率等平衡指标来全面衡量模型表现。数据集已提供多种网络架构的基准性能，如SqueezeNet、EfficientNet等，可作为模型比较的参考。最终模型需在真实临床环境中进一步验证，并避免直接用于最终诊断决策。

背景与挑战

背景概述

在COVID-19全球大流行的背景下，计算机断层扫描（CT）作为一种辅助RT-PCR检测的筛查工具，展现出重要的临床价值。为支持基于机器学习的自动化筛查系统研发，滑铁卢大学视觉与图像处理实验室的研究团队于2022年推出了COVIDx CT-3数据集。该数据集汇集了来自全球至少17个国家、6,068名患者的431,205张胸部CT切片，涵盖COVID-19、社区获得性肺炎和正常对照三类标签，成为当时公开领域中规模最大、多样性最丰富的COVID-19 CT图像基准数据集。其构建旨在解决先前研究中数据量有限、地理来源单一的问题，为计算机辅助诊断系统的开发与评估提供了关键资源。

当前挑战

COVIDx CT-3数据集面临的挑战主要体现在两个方面：其一，在解决CT图像中COVID-19自动检测这一领域问题时，数据集中存在显著的类别不平衡，COVID-19类别的图像占比高达73.4%，而正常与肺炎类别相对稀缺，这可能导致模型训练偏向多数类，影响泛化性能；同时，数据的地理分布呈现严重偏差，超过85%的患者集中于中国、法国、俄罗斯和伊朗，亚洲与欧洲以外地区的代表性不足，限制了模型在全球范围内的适用性。其二，在数据集构建过程中，由于整合了多源异构数据，部分患者年龄、性别信息缺失，且标注过程采用了自动化和非专家手动方法，引入了潜在的标签噪声，这些因素均对数据质量与可靠性构成挑战。

常用场景

经典使用场景

在医学影像分析领域，COVIDx CT-3数据集作为大规模、多国别的开放基准资源，其经典应用场景集中于开发与验证基于深度学习的COVID-19自动筛查系统。该数据集通过整合来自全球至少17个国家的6,068名患者的431,205张CT切片，为研究人员提供了丰富的视觉样本，以训练卷积神经网络识别COVID-19肺炎、社区获得性肺炎及正常肺部影像的细微差异。这种大规模数据支撑下的模型训练，显著提升了算法在复杂临床环境中的泛化能力与鲁棒性。

实际应用

在实际临床环境中，COVIDx CT-3数据集支撑的智能筛查系统可作为RT-PCR检测的重要补充，辅助放射科医师快速处理大量CT影像，减轻疫情期间的诊疗压力。此类系统能够实现COVID-19肺炎与其他类型肺炎的鉴别，提升诊断效率，尤其在医疗资源紧张的地区展现出应用潜力。然而，实际部署时需结合专家监督与临床验证，以规避数据偏差和标注噪声带来的风险。

衍生相关工作

围绕COVIDx CT-3数据集，衍生出一系列经典研究工作，例如COVID-Net CT系列网络架构的优化与拓展。这些工作针对数据集的特性设计了轻量化、高效率的深度学习模型，如COVID-Net CT S与COVID-Net CT L，在保持高精度的同时降低计算成本。此外，许多研究利用该数据集探索了数据重平衡策略、噪声标签学习以及跨域泛化方法，进一步丰富了医学影像分析领域的技术体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集