COVIDx CXR-4

Name: COVIDx CXR-4
Creator: 滑铁卢大学系统设计工程系
Published: 2023-11-29 22:40:31
License: 暂无描述

arXiv2023-11-29 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/datasets/andyczhao/covidx-cxr2

下载链接

链接失效反馈

官方服务：

资源简介：

COVIDx CXR-4是由滑铁卢大学系统设计工程系创建的一个多机构开放源基准数据集，用于基于胸部X光图像的计算机辅助COVID-19诊断。该数据集包含84,818张来自45,342名患者的图像，显著扩展了之前的COVIDx CXR-3数据集。数据集的创建过程中，从BIMCV-COVID19+和BIMCV-COVID19-精心筛选数据，并进行了图像预处理和去重。COVIDx CXR-4旨在通过提供大规模和多样化的数据，帮助改进深度学习模型在COVID-19诊断中的应用，以支持临床对抗COVID-19的研究。

COVIDx CXR-4 is a multi-institutional open-source benchmark dataset developed by the Department of Systems Design Engineering at the University of Waterloo, tailored for computer-aided COVID-19 diagnosis using chest X-ray images. This dataset comprises 84,818 images from 45,342 patients, which substantially expands the preceding COVIDx CXR-3 dataset. During its development, data was meticulously screened from BIMCV-COVID19+ and BIMCV-COVID19-, followed by image preprocessing and deduplication. COVIDx CXR-4 is intended to facilitate the optimization of deep learning models for COVID-19 diagnosis by providing large-scale and diverse data, thereby supporting clinical research aimed at combating COVID-19.

提供机构：

滑铁卢大学系统设计工程系

创建时间：

2023-11-29

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量数据集是推动计算机辅助诊断技术发展的基石。COVIDx CXR-4数据集的构建过程体现了严谨的学术规范，其核心在于对多机构来源的胸部X光影像进行系统性整合与精炼。该数据集在COVIDx CXR-3的基础上，纳入了来自BIMCV-COVID19+和BIMCV-COVID19-等公开资源的新数据，并通过严格的筛选流程确保数据质量。构建过程中，研究者剔除了元信息不完整、侧位视图以及存在技术缺陷的图像，并应用了最小-最大归一化与黑白反转等预处理技术以统一影像标准。为避免数据冗余，通过哈希值比对去除了重复影像，最终形成了包含84,818张影像、覆盖45,342名患者的大规模集合。数据划分遵循患者级别的分层策略，训练集、验证集与测试集按80%、10%、10%的比例分配，其中验证集与测试集在感染阳性与阴性样本间保持了平衡，为模型评估提供了可靠基准。

特点

作为当前规模最大、多样性最丰富的开源COVID-19胸部X光数据集，COVIDx CXR-4展现出多维度特征。其最显著的特色在于患者群体的广泛代表性，数据涵盖了从18岁以下至90岁以上各年龄层，尽管中青年群体占比略高，但整体年龄分布呈现连续谱系，为研究不同年龄段感染特征提供了可能。在性别维度上，数据基本均衡，男女比例接近，有效降低了性别偏差风险。影像视角方面，数据集同时包含前后位与后前位投影，尽管比例存在差异，但丰富了影像的临床视角。尤为重要的是，数据集明确标注了感染状态，并提供了详尽的元数据，包括人口统计学信息与影像参数，使得研究者能够深入分析潜在的数据偏差，并针对性地设计偏差缓解策略。

使用方法

该数据集旨在为基于深度学习的COVID-19辅助诊断研究提供标准化评测平台。使用者可依据其预设的数据划分，直接用于模型训练、验证与测试。鉴于训练集中阳性样本数量约为阴性样本的五倍，存在类别不平衡现象，建议在模型开发阶段采用重采样、代价敏感学习或平衡损失函数等技术以校正偏差，确保模型泛化能力。研究者在利用该数据时，应充分关注其人口统计学与影像学元数据中揭示的潜在偏差，例如未成年患者数据相对稀缺、影像视角分布不均等，并在模型评估与临床转化中予以考量。数据集支持端到端的模型开发流程，从特征提取、网络架构设计到性能评测，均可基于其提供的平衡验证集与测试集进行客观比较。最终，任何基于此数据集开发的诊断模型，都强烈建议在真实临床环境中进行外部验证，以确保其安全性与有效性。

背景与挑战

背景概述

在新型冠状病毒肺炎全球大流行的背景下，胸部X光影像作为辅助诊断工具，因其快速、低交叉感染风险而备受关注。COVIDx CXR-4数据集由滑铁卢大学的研究团队于2023年构建，旨在为基于深度学习的计算机辅助COVID-19诊断提供大规模、多机构的开源基准数据。该数据集在先前COVIDx CXR-3基础上显著扩展，涵盖来自45,342名患者的84,818张影像，核心研究问题聚焦于提升模型在真实临床场景中的泛化能力与诊断准确性。作为当前最大且最多样化的开源COVID-19胸部X光数据集，其发布推动了医学影像分析领域的前沿探索，并为全球抗疫研究提供了关键数据支撑。

当前挑战

该数据集致力于解决胸部X光影像中COVID-19自动诊断的挑战，其核心难点在于疾病表征的细微差异与多种肺部病变的视觉相似性，易导致模型误判。在构建过程中，研究团队面临数据质量控制的严峻考验，需剔除侧位视图、元信息不完整或存在技术缺陷的影像，并通过哈希值比对去除重复样本。此外，数据集的年龄分布呈现显著偏差，18岁以下群体占比仅3.1%，而18至59岁患者占比过半，这种人口统计学失衡可能削弱模型对特定人群的诊断效能。影像视角分布亦不均衡，前后位影像占比高于后前位，这些潜在偏差要求使用者采用数据采样或损失函数平衡等策略以提升模型鲁棒性。

常用场景

经典使用场景

在医学影像分析领域，COVIDx CXR-4数据集为计算机辅助诊断COVID-19提供了关键支持。该数据集通过整合多机构来源的胸部X光图像，构建了一个规模庞大且多样化的基准测试平台。研究者通常利用该数据集训练深度学习模型，以自动识别图像中的COVID-19感染特征，从而辅助临床医生进行快速筛查。其经典使用场景包括模型性能的基准测试、算法鲁棒性评估以及跨数据集泛化能力验证，为医学影像分析研究奠定了坚实基础。

衍生相关工作

围绕COVIDx CXR-4数据集，学术界衍生了一系列经典研究工作。例如，研究者开发了如COVID-CheXNet等混合深度学习框架，专注于从胸部X光图像中识别COVID-19特征。同时，基于该数据集的图像增强技术探索、多类别疾病分类模型以及偏差缓解策略等研究也相继涌现。这些工作不仅扩展了数据集的学术价值，还推动了医学影像分析领域在可解释性、公平性和鲁棒性方面的持续进步。

数据集最近研究