COVID-19 image data collection
收藏github2020-12-06 更新2024-05-31 收录
下载链接:
https://github.com/Acassarino/Covid_xray_dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们正在构建一个COVID-19病例的胸部X光或CT图像数据库,同时也在寻找MERS、SARS和ARDS病例。所有图像和数据将在GitHub仓库中公开发布。
We are in the process of constructing a database of chest X-ray or CT images for COVID-19 cases, while also seeking cases of MERS, SARS, and ARDS. All images and data will be publicly released in a GitHub repository.
创建时间:
2020-04-05
原始信息汇总
数据集概述
数据集名称
COVID-19 image data collection
数据集内容
- 图像类型: 胸部X光或CT图像
- 目标疾病: COVID-19, MERS, SARS, ARDS
- 图像来源: 来自已发表的文献
- 数据状态: 图像和数据公开发布于GitHub仓库
数据集结构
- 图像: 可通过链接查看当前图像
- 元数据: 可通过链接查看元数据文件
- 数据标签: 使用0=No或1=Yes的标签
数据集统计
- COVID19_Dataset num_samples=149 views=[PA]
- 包含多种疾病的样本统计,如ARDS, Bacterial Pneumonia, COVID-19等
- COVID19_Dataset num_samples=50 views=[AP, AP Supine]
- 同样包含多种疾病的样本统计,如ARDS, Bacterial Pneumonia, COVID-19等
数据集用途
- 用于开发基于AI的方法来预测和理解感染
- 目标任务包括:健康与肺炎的区分、细菌性与病毒性与COVID-19肺炎的区分、患者生存预测
数据集贡献方式
- 从文献中提取图像
- 提交数据至特定网站
- 提供图像中问题区域的边界框/掩码
数据格式
- 胸部X光: dcm, jpg, png
- CT: nifti (gzip格式), dcms
联系方式
- 联系人: Joseph Paul Cohen, Postdoctoral Fellow, Mila, University of Montreal
- 个人网站: Joseph Paul Cohen
搜集汇总
数据集介绍

构建方式
COVID-19图像数据集的构建主要依赖于从已发表的医学文献中提取胸部X光片和CT图像。这些图像来源于公开的医学研究,确保了数据的可靠性和权威性。数据集不仅包含COVID-19病例,还涵盖了MERS、SARS和ARDS等其他呼吸道疾病的图像,以提供更广泛的比较和分析基础。通过GitHub平台,所有图像和相关元数据均公开共享,便于全球研究者的访问和使用。
特点
该数据集的特点在于其多样性和专业性。数据集包含了149例PA视图和50例AP及AP Supine视图的胸部X光片,每张图像都附有详细的元数据标签,如是否患有COVID-19、细菌性肺炎、病毒性肺炎等。这种多维度的标签系统为研究者提供了丰富的分析维度,有助于深入探索不同呼吸道疾病的影像学特征。此外,数据集的开放性鼓励了全球科研人员的协作与创新。
使用方法
使用COVID-19图像数据集时,研究者可以通过GitHub访问图像和元数据文件。数据集支持多种图像格式,如dcm、jpg、png和nifti,适应不同的研究需求。研究者可以利用这些数据进行AI模型的训练和验证,特别是在肺炎分类、COVID-19检测和患者生存预测等任务上。此外,数据集还提供了数据加载器,便于在Python环境中直接使用,进一步简化了研究流程。
背景与挑战
背景概述
COVID-19图像数据收集项目由Joseph Paul Cohen、Paul Morrison和Lan Dao于2020年发起,旨在构建一个包含COVID-19病例的胸部X光或CT图像的公开数据库。该项目不仅关注COVID-19,还涵盖了MERS、SARS和ARDS等其他呼吸道疾病。该数据集的创建背景源于COVID-19大流行期间,全球对快速、准确诊断工具的需求激增。通过收集和公开这些医学影像数据,研究人员可以开发基于人工智能的诊断工具,以辅助医疗专业人员更有效地识别和管理COVID-19病例。该数据集对医学影像分析和人工智能在医疗诊断中的应用具有重要影响,推动了相关领域的研究进展。
当前挑战
该数据集面临的主要挑战包括:1) 数据多样性和质量的挑战。由于COVID-19的影像特征与其他呼吸道疾病(如MERS、SARS)存在重叠,如何准确区分这些疾病并减少误诊率是一个关键问题。2) 数据收集和标注的挑战。尽管数据集主要依赖于已发表的文献中的图像,但这些图像的来源和质量参差不齐,且缺乏统一的标注标准。3) 数据隐私和伦理问题。医学影像数据涉及患者隐私,如何在公开数据的同时保护患者隐私是一个复杂的伦理问题。4) 模型泛化能力的挑战。由于数据集的样本量相对有限,如何确保基于这些数据训练的模型能够在不同医疗环境中有效泛化,仍是一个亟待解决的问题。
常用场景
经典使用场景
COVID-19图像数据集在医学影像分析领域具有重要应用,特别是在胸部X光和CT图像的自动诊断系统中。该数据集被广泛用于训练和验证深度学习模型,以区分COVID-19与其他类型的肺炎,如细菌性肺炎和病毒性肺炎。通过提供大量标注的医学影像数据,研究人员能够开发出高效的算法,辅助医生进行快速准确的诊断。
解决学术问题
该数据集解决了COVID-19诊断中的关键学术问题,特别是在影像学特征识别和分类方面。通过提供多样化的病例数据,研究人员能够深入分析COVID-19在胸部影像中的表现,探索其与MERS、SARS等其他呼吸道疾病的异同。这不仅提升了诊断的准确性,还为疾病的早期检测和干预提供了科学依据。
衍生相关工作
该数据集衍生了许多经典的研究工作,特别是在医学影像分析和深度学习领域。例如,基于该数据集的研究成果被用于开发Chester AI Radiology Assistant平台,该平台能够自动分析胸部X光片并生成诊断报告。此外,许多研究团队利用该数据集开发了针对COVID-19的自动检测算法,这些算法在多个国际竞赛和临床研究中取得了显著成果。
以上内容由遇见数据集搜集并总结生成



