COVIDx CT-3
收藏arXiv2022-11-16 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2206.03043v3
下载链接
链接失效反馈官方服务:
资源简介:
COVIDx CT-3是由滑铁卢大学创建的一个大规模跨国开放源胸部CT图像数据集,旨在辅助COVID-19的计算机辅助筛查。该数据集包含来自至少17个国家的6,068名患者的431,205张CT切片,是目前最大的开放访问COVID-19 CT图像数据集。数据集通过多种CT扫描仪和协议从全球多个数据源精心处理和策划而成。COVIDx CT-3主要用于支持机器学习驱动的筛查系统开发,帮助临床医生区分COVID-19肺炎与其他病因的肺炎。尽管数据集在多样性上有所努力,但仍存在显著的地理和类别不平衡问题。
COVIDx CT-3 is a large-scale multinational open-source chest CT image dataset created by the University of Waterloo, aiming to assist computer-aided screening of COVID-19. It contains 431,205 CT slices from 6,068 patients across at least 17 countries, making it the largest publicly accessible COVID-19 CT image dataset to date. The dataset was meticulously processed and curated from multiple global data sources using a diverse range of CT scanners and imaging protocols. Primarily intended to support the development of machine learning-driven screening systems, it helps clinicians distinguish COVID-19 pneumonia from pneumonia caused by other etiologies. Despite efforts to improve diversity, the dataset still exhibits significant geographic and class imbalance issues.
提供机构:
滑铁卢大学
创建时间:
2022-06-07
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,构建高质量数据集对于推动计算机辅助诊断系统的发展至关重要。COVIDx CT-3数据集通过整合全球多个公开数据源,包括中国国家生物信息中心、美国国立卫生研究院等11个机构的资源,精心筛选了来自至少17个国家的6,068名患者的431,205张胸部CT切片。数据标注采用了三种策略:基于分割掩码的自动标注、非专家手动标注以及预训练模型辅助标注,确保了标签的多样性与可靠性,同时将自动与非专家标注的数据限定于训练集,验证集与测试集则完全由专家手动标注,以保障评估的严谨性。
特点
该数据集以其规模与多样性著称,成为目前公开领域中最大的COVID-19胸部CT影像基准。其特点体现在多国数据源的广泛覆盖,尽管存在显著的地理与类别不平衡,例如中国患者占比42.2%,且COVID-19类别的影像占总体73.4%。数据集中包含三类感染类型:COVID-19、社区获得性肺炎与正常对照,为模型提供了丰富的学习样本。此外,数据分割遵循约84%训练、8%验证与8%测试的比例,验证集与测试集在类别分布上相对均衡,有助于客观评估模型性能。
使用方法
研究人员可利用该数据集开发与验证基于深度学习的COVID-19筛查模型。使用时应首先关注训练集中的类别不平衡问题,建议采用平衡损失函数或数据重采样技术以优化模型训练。在评估阶段,需结合验证集与测试集的专家标注数据,通过计算各类别的精确率与召回率等平衡指标来全面衡量模型表现。数据集已提供多种网络架构的基准性能,如SqueezeNet、EfficientNet等,可作为模型比较的参考。最终模型需在真实临床环境中进一步验证,并避免直接用于最终诊断决策。
背景与挑战
背景概述
在COVID-19全球大流行的背景下,计算机断层扫描(CT)作为一种辅助RT-PCR检测的筛查工具,展现出重要的临床价值。为支持基于机器学习的自动化筛查系统研发,滑铁卢大学视觉与图像处理实验室的研究团队于2022年推出了COVIDx CT-3数据集。该数据集汇集了来自全球至少17个国家、6,068名患者的431,205张胸部CT切片,涵盖COVID-19、社区获得性肺炎和正常对照三类标签,成为当时公开领域中规模最大、多样性最丰富的COVID-19 CT图像基准数据集。其构建旨在解决先前研究中数据量有限、地理来源单一的问题,为计算机辅助诊断系统的开发与评估提供了关键资源。
当前挑战
COVIDx CT-3数据集面临的挑战主要体现在两个方面:其一,在解决CT图像中COVID-19自动检测这一领域问题时,数据集中存在显著的类别不平衡,COVID-19类别的图像占比高达73.4%,而正常与肺炎类别相对稀缺,这可能导致模型训练偏向多数类,影响泛化性能;同时,数据的地理分布呈现严重偏差,超过85%的患者集中于中国、法国、俄罗斯和伊朗,亚洲与欧洲以外地区的代表性不足,限制了模型在全球范围内的适用性。其二,在数据集构建过程中,由于整合了多源异构数据,部分患者年龄、性别信息缺失,且标注过程采用了自动化和非专家手动方法,引入了潜在的标签噪声,这些因素均对数据质量与可靠性构成挑战。
常用场景
经典使用场景
在医学影像分析领域,COVIDx CT-3数据集作为大规模、多国别的开放基准资源,其经典应用场景集中于开发与验证基于深度学习的COVID-19自动筛查系统。该数据集通过整合来自全球至少17个国家的6,068名患者的431,205张CT切片,为研究人员提供了丰富的视觉样本,以训练卷积神经网络识别COVID-19肺炎、社区获得性肺炎及正常肺部影像的细微差异。这种大规模数据支撑下的模型训练,显著提升了算法在复杂临床环境中的泛化能力与鲁棒性。
实际应用
在实际临床环境中,COVIDx CT-3数据集支撑的智能筛查系统可作为RT-PCR检测的重要补充,辅助放射科医师快速处理大量CT影像,减轻疫情期间的诊疗压力。此类系统能够实现COVID-19肺炎与其他类型肺炎的鉴别,提升诊断效率,尤其在医疗资源紧张的地区展现出应用潜力。然而,实际部署时需结合专家监督与临床验证,以规避数据偏差和标注噪声带来的风险。
衍生相关工作
围绕COVIDx CT-3数据集,衍生出一系列经典研究工作,例如COVID-Net CT系列网络架构的优化与拓展。这些工作针对数据集的特性设计了轻量化、高效率的深度学习模型,如COVID-Net CT S与COVID-Net CT L,在保持高精度的同时降低计算成本。此外,许多研究利用该数据集探索了数据重平衡策略、噪声标签学习以及跨域泛化方法,进一步丰富了医学影像分析领域的技术体系。
以上内容由遇见数据集搜集并总结生成



