COVID-CT-Dataset

Name: COVID-CT-Dataset
Creator: 加州大学圣地亚哥分校
Published: 2020-06-18 04:14:22
License: 暂无描述

arXiv2020-06-18 更新2024-06-21 收录

下载链接：

https://github.com/UCSD-AI4H/COVID-CT

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-CT-Dataset是由加州大学圣地亚哥分校创建的一个开放源代码数据集，专注于COVID-19的CT图像。该数据集包含349张来自216名患者的COVID-19阳性CT图像和463张非COVID-19 CT图像，用于训练和验证AI驱动的诊断模型。数据集的构建过程涉及从760篇关于COVID-19的预印本中提取CT图像，并由资深放射科医生确认其临床价值。该数据集的应用领域主要集中在通过AI技术提高COVID-19的诊断准确性和效率，特别是在资源有限的环境中。

COVID-CT-Dataset is an open-source dataset developed by the University of California, San Diego, focused on COVID-19 CT imaging. It comprises 349 COVID-19-positive CT images from 216 patients and 463 non-COVID-19 CT images, intended for training and validating AI-driven diagnostic models. The dataset was constructed by extracting CT images from 760 COVID-19-related preprints, with their clinical validity confirmed by senior radiologists. Its primary applications lie in enhancing the diagnostic accuracy and efficiency of COVID-19 via AI technologies, particularly in resource-constrained settings.

提供机构：

加州大学圣地亚哥分校

创建时间：

2020-03-31

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，公开的COVID-19 CT数据集因隐私问题极为稀缺，这严重制约了基于人工智能的诊断技术研发。为应对这一挑战，COVID-CT-Dataset通过系统化方法构建而成。研究团队从medRxiv和bioRxiv平台收集了760篇相关预印本，利用PyMuPDF工具提取其中嵌入的CT图像及对应图注。通过人工审阅图注内容，筛选出描述COVID-19临床特征的CT图像，并对包含多个子图的复合图像进行手动分割。最终，数据集整合了来自216名患者的349张COVID-19阳性CT图像，同时从MedPix、LUNA、Radiopaedia及PubMed Central等公开资源中收集了463张非COVID-19 CT图像作为阴性样本，形成了可用于二元分类任务的完整数据集。

使用方法

该数据集主要用于开发与评估基于CT影像的COVID-19自动诊断模型。研究者可将数据集划分为训练集、验证集和测试集，其中训练集包含论文提取的CT图像，而验证与测试集建议使用原始CT图像以确保评估的可靠性。在模型开发中，可借鉴论文提出的多任务学习框架，通过引入肺部分割掩模和病灶分割掩模作为辅助任务，引导模型聚焦于肺部相关区域，从而提升分类性能。此外，采用对比自监督学习对ImageNet预训练模型进行领域自适应微调，能有效学习更具判别力的CT影像表征。最终模型可在独立的、由原始CT图像构成的测试集上进行性能评估，使用准确率、F1分数和AUC等指标进行综合衡量，以验证其临床应用的潜力。

背景与挑战

背景概述

在2020年新型冠状病毒肺炎（COVID-19）全球大流行期间，计算机断层扫描（CT）成为辅助诊断COVID-19患者的重要影像学手段。然而，由于医疗数据隐私保护的限制，公开可用的COVID-19 CT数据集极为稀缺，严重阻碍了基于人工智能的CT影像诊断方法的研发进程。为此，加州大学圣地亚哥分校与伯克利分校的研究团队于2020年共同构建了COVID-CT-Dataset，该数据集收录了来自216名患者的349张COVID-19阳性CT图像及463张非COVID-19 CT图像，旨在为学术界提供开源数据资源，推动CT影像智能诊断模型的创新与发展。该数据集经由资深放射科医师验证其临床实用性，并通过实验研究证实其在训练高性能诊断模型方面的有效性，对医学影像分析与公共卫生应急响应领域产生了深远影响。

当前挑战

COVID-CT-Dataset致力于解决COVID-19 CT影像自动诊断中的核心挑战，即在小样本、高隐私限制下构建可靠分类模型。具体而言，其面临的挑战包括：在领域问题层面，CT影像中COVID-19特征（如毛玻璃影）与其它肺炎类型存在视觉相似性，且单张切片所包含的病理信息有限，导致模型区分度与泛化能力不足；在构建过程中，数据采集受限于隐私法规，需从公开预印本论文中提取图像，面临图像质量退化（如霍恩斯菲尔德单位值丢失、分辨率降低）与数据标注一致性等难题。此外，数据集中阳性样本量较少，且患者年龄、性别分布不均，进一步增加了模型训练中过拟合与偏差风险。

常用场景

经典使用场景

在医学影像分析领域，COVID-CT-Dataset 为研究人员提供了一个宝贵的资源，用于开发和验证基于深度学习的 COVID-19 诊断模型。该数据集包含 349 张 COVID-19 阳性 CT 图像和 463 张非 COVID-19 CT 图像，通过从预印本论文中提取图像构建而成。其经典使用场景集中在训练卷积神经网络（如 DenseNet-169 和 ResNet-50）进行二分类任务，即区分 COVID-19 感染与非感染病例。实验表明，即使图像质量因提取过程有所下降，该数据集仍能有效提升模型性能，为 AI 辅助诊断提供了可靠的数据基础。

解决学术问题

COVID-CT-Dataset 主要解决了 COVID-19 疫情期间公开 CT 数据稀缺的学术难题。由于隐私限制，早期研究多依赖私有数据，阻碍了 AI 诊断方法的可重复性与进步。该数据集通过开放共享，促进了模型比较与算法创新，尤其针对小样本条件下的过拟合问题。研究团队引入多任务学习和对比自监督学习，结合肺区域与病灶分割掩码，将模型性能提升至临床可用水平（F1 分数 0.90，AUC 0.98），验证了低质量单切片 CT 图像在训练中的有效性，为医学影像分析中的数据瓶颈提供了解决方案。

实际应用

在实际医疗场景中，COVID-CT-Dataset 支持开发快速筛查工具，辅助放射科医生在疫情爆发期间处理大量 CT 扫描。模型可集成至医院影像归档系统，实现自动化初筛，减轻医护人员负担，尤其在资源匮乏地区提升诊断效率。此外，该数据集为远程医疗和移动诊断应用提供训练基础，帮助识别 COVID-19 引起的病毒性肺炎特征。通过结合肺掩码与病灶信息，系统能精准定位感染区域，为临床决策提供可视化依据，推动 AI 在公共卫生危机中的实际部署。

数据集最近研究