five

COVID-CT-Dataset

收藏
arXiv2020-06-18 更新2024-06-21 收录
下载链接:
https://github.com/UCSD-AI4H/COVID-CT
下载链接
链接失效反馈
官方服务:
资源简介:
COVID-CT-Dataset是由加州大学圣地亚哥分校创建的一个开放源代码数据集,专注于COVID-19的CT图像。该数据集包含349张来自216名患者的COVID-19阳性CT图像和463张非COVID-19 CT图像,用于训练和验证AI驱动的诊断模型。数据集的构建过程涉及从760篇关于COVID-19的预印本中提取CT图像,并由资深放射科医生确认其临床价值。该数据集的应用领域主要集中在通过AI技术提高COVID-19的诊断准确性和效率,特别是在资源有限的环境中。

COVID-CT-Dataset is an open-source dataset developed by the University of California, San Diego, focused on COVID-19 CT imaging. It comprises 349 COVID-19-positive CT images from 216 patients and 463 non-COVID-19 CT images, intended for training and validating AI-driven diagnostic models. The dataset was constructed by extracting CT images from 760 COVID-19-related preprints, with their clinical validity confirmed by senior radiologists. Its primary applications lie in enhancing the diagnostic accuracy and efficiency of COVID-19 via AI technologies, particularly in resource-constrained settings.
提供机构:
加州大学圣地亚哥分校
创建时间:
2020-03-31
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,公开的COVID-19 CT数据集因隐私问题极为稀缺,这严重制约了基于人工智能的诊断技术研发。为应对这一挑战,COVID-CT-Dataset通过系统化方法构建而成。研究团队从medRxiv和bioRxiv平台收集了760篇相关预印本,利用PyMuPDF工具提取其中嵌入的CT图像及对应图注。通过人工审阅图注内容,筛选出描述COVID-19临床特征的CT图像,并对包含多个子图的复合图像进行手动分割。最终,数据集整合了来自216名患者的349张COVID-19阳性CT图像,同时从MedPix、LUNA、Radiopaedia及PubMed Central等公开资源中收集了463张非COVID-19 CT图像作为阴性样本,形成了可用于二元分类任务的完整数据集。
使用方法
该数据集主要用于开发与评估基于CT影像的COVID-19自动诊断模型。研究者可将数据集划分为训练集、验证集和测试集,其中训练集包含论文提取的CT图像,而验证与测试集建议使用原始CT图像以确保评估的可靠性。在模型开发中,可借鉴论文提出的多任务学习框架,通过引入肺部分割掩模和病灶分割掩模作为辅助任务,引导模型聚焦于肺部相关区域,从而提升分类性能。此外,采用对比自监督学习对ImageNet预训练模型进行领域自适应微调,能有效学习更具判别力的CT影像表征。最终模型可在独立的、由原始CT图像构成的测试集上进行性能评估,使用准确率、F1分数和AUC等指标进行综合衡量,以验证其临床应用的潜力。
背景与挑战
背景概述
在2020年新型冠状病毒肺炎(COVID-19)全球大流行期间,计算机断层扫描(CT)成为辅助诊断COVID-19患者的重要影像学手段。然而,由于医疗数据隐私保护的限制,公开可用的COVID-19 CT数据集极为稀缺,严重阻碍了基于人工智能的CT影像诊断方法的研发进程。为此,加州大学圣地亚哥分校与伯克利分校的研究团队于2020年共同构建了COVID-CT-Dataset,该数据集收录了来自216名患者的349张COVID-19阳性CT图像及463张非COVID-19 CT图像,旨在为学术界提供开源数据资源,推动CT影像智能诊断模型的创新与发展。该数据集经由资深放射科医师验证其临床实用性,并通过实验研究证实其在训练高性能诊断模型方面的有效性,对医学影像分析与公共卫生应急响应领域产生了深远影响。
当前挑战
COVID-CT-Dataset致力于解决COVID-19 CT影像自动诊断中的核心挑战,即在小样本、高隐私限制下构建可靠分类模型。具体而言,其面临的挑战包括:在领域问题层面,CT影像中COVID-19特征(如毛玻璃影)与其它肺炎类型存在视觉相似性,且单张切片所包含的病理信息有限,导致模型区分度与泛化能力不足;在构建过程中,数据采集受限于隐私法规,需从公开预印本论文中提取图像,面临图像质量退化(如霍恩斯菲尔德单位值丢失、分辨率降低)与数据标注一致性等难题。此外,数据集中阳性样本量较少,且患者年龄、性别分布不均,进一步增加了模型训练中过拟合与偏差风险。
常用场景
经典使用场景
在医学影像分析领域,COVID-CT-Dataset 为研究人员提供了一个宝贵的资源,用于开发和验证基于深度学习的 COVID-19 诊断模型。该数据集包含 349 张 COVID-19 阳性 CT 图像和 463 张非 COVID-19 CT 图像,通过从预印本论文中提取图像构建而成。其经典使用场景集中在训练卷积神经网络(如 DenseNet-169 和 ResNet-50)进行二分类任务,即区分 COVID-19 感染与非感染病例。实验表明,即使图像质量因提取过程有所下降,该数据集仍能有效提升模型性能,为 AI 辅助诊断提供了可靠的数据基础。
解决学术问题
COVID-CT-Dataset 主要解决了 COVID-19 疫情期间公开 CT 数据稀缺的学术难题。由于隐私限制,早期研究多依赖私有数据,阻碍了 AI 诊断方法的可重复性与进步。该数据集通过开放共享,促进了模型比较与算法创新,尤其针对小样本条件下的过拟合问题。研究团队引入多任务学习和对比自监督学习,结合肺区域与病灶分割掩码,将模型性能提升至临床可用水平(F1 分数 0.90,AUC 0.98),验证了低质量单切片 CT 图像在训练中的有效性,为医学影像分析中的数据瓶颈提供了解决方案。
实际应用
在实际医疗场景中,COVID-CT-Dataset 支持开发快速筛查工具,辅助放射科医生在疫情爆发期间处理大量 CT 扫描。模型可集成至医院影像归档系统,实现自动化初筛,减轻医护人员负担,尤其在资源匮乏地区提升诊断效率。此外,该数据集为远程医疗和移动诊断应用提供训练基础,帮助识别 COVID-19 引起的病毒性肺炎特征。通过结合肺掩码与病灶信息,系统能精准定位感染区域,为临床决策提供可视化依据,推动 AI 在公共卫生危机中的实际部署。
数据集最近研究
最新研究方向
在医学影像分析领域,COVID-CT-Dataset的发布为COVID-19的CT影像诊断研究提供了关键数据支持。当前研究前沿聚焦于结合多任务学习与自监督学习技术,通过整合肺部区域分割掩码和病灶区域分割掩码,提升模型对COVID-19的识别精度。这些方法不仅优化了特征表示,还增强了模型在有限数据下的泛化能力,推动了AI辅助诊断系统向临床实用化迈进。相关热点事件包括全球疫情背景下对快速、准确筛查工具的迫切需求,该数据集的开源促进了跨机构合作与算法创新,对公共卫生应急响应具有深远意义。
相关研究论文
  • 1
    COVID-CT-Dataset: A CT Scan Dataset about COVID-19加州大学圣地亚哥分校 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作