COVID-19 image data collection
收藏github2020-04-02 更新2024-05-31 收录
下载链接:
https://github.com/FFFreitas/covid-chestxray-dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们正在构建一个COVID-19病例的胸部X光或CT图像数据库。我们正在寻找COVID-19病例以及MERS、SARS和ARDS病例。所有图像和数据将在这个GitHub仓库中公开发布。目前,我们正在从已发表的文献中收集图像来构建数据库。
We are constructing a database of chest X-ray or CT images for COVID-19 cases. We are seeking cases of COVID-19 as well as MERS, SARS, and ARDS. All images and data will be publicly released in this GitHub repository. Currently, we are collecting images from published literature to build the database.
创建时间:
2020-04-02
原始信息汇总
数据集概述
数据集名称
- COVID-19 image data collection
数据集内容
- 包含COVID-19病例的胸部X光或CT图像。
- 同时收集MERS、SARS和ARDS的病例图像。
数据集结构
- 图像文件存储在
images目录。 - 元数据存储在
metadata.csv文件中。
数据集统计
- COVID19_Dataset num_samples=136 views=[PA]
- COVID-19: 0.0=46, 1.0=99
- Pneumonia: 0.0=1, 1.0=144
- COVID19_Dataset num_samples=28 views=[AP, AP Supine]
- COVID-19: 0.0=4, 1.0=30
- Pneumonia: 0.0=4, 1.0=30
数据集用途
- 用于开发AI模型,以预测和理解COVID-19感染。
- 目标任务包括:
- 健康与肺炎的区分
- 细菌性、病毒性与COVID-19肺炎的区分
- 患者生存预测
数据集贡献方式
- 从已发表的文献中提取图像。
- 提交数据至Radiopaedia或SIRM网站。
- 提供已收集图像中的问题区域边界框/掩码。
数据格式
- 胸部X光:首选dcm, jpg, png格式。
- CT:首选nifti格式(gzip压缩),也接受dcm格式。
联系方式
- 联系人:Joseph Paul Cohen, Postdoctoral Fellow, Mila, University of Montreal
- 网址:Joseph Paul Cohens website
搜集汇总
数据集介绍

构建方式
COVID-19 image data collection数据集的构建主要依托于公开出版物中的胸透X射线和CT影像,这些影像资源已经被广泛获取并公开于GitHub仓库。数据集涵盖了COVID-19病例以及MERS、SARS、ARDS等其他相关病例的影像资料,构建过程中注重影像的多样性和代表性,旨在为相关研究提供全面且高质量的数据支持。
特点
该数据集的特点在于其开放性和多样性。首先,数据集完全公开,任何研究者都可以访问和利用这些影像资源。其次,数据集包含了多种病例的影像,不仅限于COVID-19,还包括MERS、SARS、ARDS等,为研究者提供了更为广泛的视野。此外,数据集的构建考虑了影像的不同视角(PA、AP、AP Supine),以及对应的标签信息,有助于提高模型训练的准确性和泛化能力。
使用方法
使用该数据集时,研究者可以查看当前可用的影像和元数据,并按照数据加载器中的说明加载所需的数据。数据集支持多种格式,如dcm、jpg、png和nifti(gzip格式)。此外,研究者可以通过GitHub issue提交新的出版物信息,或者向指定的平台提交数据,以丰富数据集的内容。数据集的使用旨在促进AI辅助诊断工具的开发,以辅助临床决策和患者管理。
背景与挑战
背景概述
COVID-19 image data collection数据集是在2019年新型冠状病毒(COVID-19)疫情背景下创建的。该数据集由Joseph Paul Cohen、Paul Morrison和Lan Dao等研究人员构建,旨在收集包含COVID-19病例的胸部X射线或CT图像,并公开发布在GitHub仓库中。该数据集的核心研究问题是利用医学影像学方法,尤其是人工智能技术,对COVID-19进行辅助诊断,以减轻临床诊断的压力,提高诊断效率。该数据集对医学影像分析、机器学习等领域产生了重要影响,为研究人员提供了一个宝贵的资源,助力于开发自动化和智能化的诊断工具。
当前挑战
在构建COVID-19 image data collection数据集的过程中,研究人员面临了多重挑战。首先,确保数据集的多样性和代表性是一大挑战,需要收集来自不同患者、不同设备、不同感染阶段的图像数据。其次,数据集构建过程中的数据标注和质量控制也是一个重要挑战,需要专业知识确保标签的准确性和图像质量。此外,数据集在解决领域问题方面的挑战包括:如何提高图像识别算法的准确性和鲁棒性,以及如何确保模型在不同人群和设备上的泛化能力。
常用场景
经典使用场景
在医学影像分析领域,COVID-19 image data collection数据集的经典使用场景在于,通过收集并公开COVID-19病例的胸部X射线或CT图像,为研究人员提供了一种宝贵的资源,以训练和评估深度学习模型,从而辅助诊断COVID-19及其他相关肺炎。该数据集支持的研究有助于提升模型对于 pneumonia 的识别能力,特别是在区分细菌性肺炎、病毒性肺炎与COVID-19肺炎方面展现出显著的应用价值。
解决学术问题
该数据集解决了学术研究中对于精确诊断COVID-19的需求,特别是在初期阶段,当PCR测试结果尚未出来时,通过影像学手段能够提供一种快速的辅助诊断方式。此外,数据集还解决了模型训练中样本数量不足的问题,提高了模型的泛化能力和诊断的准确性。这对于控制疾病的传播和减轻医疗系统的负担具有重要意义。
衍生相关工作
基于COVID-19 image data collection数据集,衍生出了多项相关工作,包括但不限于开发具有更高准确率的诊断模型,探索新型肺炎与其他已知肺炎类型的影像学差异,以及深入研究人工智能在医疗影像分析中的应用。这些工作不仅推动了医学影像分析领域的发展,也为COVID-19的防控和治疗提供了科学依据。
以上内容由遇见数据集搜集并总结生成



