COVID-19 image data collection

github2020-07-27 更新2024-05-31 收录

下载链接：

https://github.com/mistersoftware/covid-chestxray-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

构建一个公开的开放数据集，包含COVID-19阳性或疑似患者的胸部X光和CT图像，以及其他病毒性和细菌性肺炎的图像。数据来源于公共资源和医院及医生的间接收集，所有图像和数据将公开发布。

Construct a publicly available open dataset comprising chest X-ray and CT images of COVID-19 positive or suspected patients, along with images of other viral and bacterial pneumonias. The data is sourced from public resources and indirectly collected from hospitals and physicians, with all images and data to be released publicly.

创建时间：

2020-06-15

原始信息汇总

数据集概述

项目背景与目标

背景: 在COVID-19大流行背景下，旨在通过收集和分析胸部X光和CT图像，改善对患者的预后预测，辅助临床决策。
目标: 利用收集的图像数据开发基于AI的诊断工具，预测疾病严重程度和患者需求，如生存率、插管需求和氧疗需求。

数据集内容

数据类型: 胸部X光和CT图像。
样本数量: 总计418张图像，包括328张PA和AP视图图像，以及90张AP Supine视图图像。
标签: 图像标签包括是否患有COVID-19、细菌性肺炎、病毒性肺炎等多种疾病状态。

数据集特点

多样性: 数据集包含多种肺炎类型，包括COVID-19、细菌性肺炎、病毒性肺炎等。
公开性: 所有图像和数据均公开发布于GitHub仓库。

数据集使用

数据加载: 数据可通过提供的加载器进行加载，详细代码位于此处。
格式要求: 胸部X光图像支持dcm, jpg, png格式，CT图像支持nifti（gzip格式）和dcm格式。

数据集贡献

贡献方式: 可通过直接提交数据、协助从出版物中提取图像或提供图像中的问题区域边界框/掩码来贡献数据。
合作平台: 数据可通过Radiopaedia、SIRM、EuroRAD和Coronacases等平台提交。

数据集标注

肺部边界框: 提供肺部边界框标注，用于图像分析。
肺炎严重程度评分: 提供94张图像的肺炎严重程度评分。
肺部分割: 提供基于变分数据插值的肺部分割。
Brixia评分: 提供192张图像的Brixia评分，用于半定量评估COVID-19严重程度。

数据集许可证

图像许可证: 每张图像的许可证在metadata.csv文件中指定，包括Apache 2.0、CC BY-NC-SA 4.0、CC BY 4.0。
文档许可证: metadata.csv、脚本和其他文档根据CC BY-NC-SA 4.0许可证发布。

联系方式

项目负责人: Joseph Paul Cohen, 博士后研究员, Mila, 蒙特利尔大学。

数据集引用

引用格式:

Joseph Paul Cohen and Paul Morrison and Lan Dao, COVID-19 image data collection, arXiv:2003.11597, 2020, https://github.com/ieee8023/covid-chestxray-dataset

初步结果

可视化: 提供了COVID-19 X光图像的UMAP可视化结果，展示数据集的初步分析。

搜集汇总

数据集介绍

构建方式

COVID-19图像数据集的构建主要依赖于公开来源的数据收集，包括从医院和医生处间接获取的胸部X光和CT图像。这些图像涵盖了COVID-19阳性或疑似患者，以及其他病毒性和细菌性肺炎（如MERS、SARS和ARDS）的病例。所有数据均经过蒙特利尔大学伦理委员会的批准，确保数据的合法性和伦理性。数据以公开形式发布在GitHub仓库中，便于全球研究人员访问和使用。

特点

该数据集包含了328例PA、AP视图和90例AP Supine视图的胸部X光图像，每张图像均标注了多种病理状态，如COVID-19、细菌性肺炎、病毒性肺炎等。数据集还提供了肺部边界框、肺炎严重程度评分、肺部分割掩码等丰富的注释信息，这些注释由多个研究团队贡献，并附有详细的引用和许可信息。数据集的多维标注和多样性使其成为开发AI诊断工具的理想选择。

使用方法

该数据集的使用方法包括通过GitHub仓库下载图像和元数据文件，并使用提供的Python数据加载器进行数据预处理和分析。研究人员可以利用这些数据开发AI模型，用于预测肺炎类型、评估疾病严重程度等任务。数据集还支持多种图像格式（如dcm、jpg、png），并提供了详细的元数据模式说明，便于用户根据需求进行定制化处理。

背景与挑战

背景概述

COVID-19 image data collection 数据集由蒙特利尔大学的 Joseph Paul Cohen 等人于2020年创建，旨在为COVID-19及其他病毒性和细菌性肺炎（如MERS、SARS和ARDS）的胸部X光和CT图像提供一个公开的开放数据集。该数据集通过公共来源及医院和医生的间接收集构建，涵盖了328个样本的PA、AP视图和90个样本的AP Supine视图。其核心研究问题是通过这些图像开发基于人工智能的方法，以预测和理解COVID-19感染，从而改善患者的预后预测和临床管理。该数据集在医学影像分析和人工智能辅助诊断领域具有重要影响力，推动了COVID-19相关研究的进展。

当前挑战

该数据集面临的挑战主要包括两个方面。首先，在领域问题方面，尽管胸部X光和CT图像在COVID-19诊断中具有重要价值，但其图像特征并不完全具有特异性，导致模型在区分COVID-19与其他肺炎类型时存在困难。其次，在数据集构建过程中，由于数据来源多样且涉及隐私保护，数据的标准化和标注工作面临较大挑战。此外，数据集中样本数量相对有限，尤其是某些类别的样本数量较少，可能导致模型训练时的偏差问题。这些挑战需要通过更多的数据收集和更精细的标注工作来逐步解决。

常用场景

经典使用场景

在COVID-19大流行的背景下，COVID-19图像数据集的经典使用场景主要集中在医学影像分析领域。该数据集通过收集来自公开来源和医院的胸部X光和CT图像，为研究人员提供了丰富的图像数据资源。这些数据被广泛用于开发基于人工智能的诊断工具，帮助识别COVID-19感染患者，并与其他病毒性和细菌性肺炎进行区分。通过深度学习模型，研究人员能够从这些图像中提取特征，进而辅助临床医生进行快速诊断和病情评估。

实际应用

在实际应用中，COVID-19图像数据集为医疗机构和研究人员提供了宝贵的资源。通过该数据集，医疗机构可以开发自动化诊断工具，辅助医生快速识别COVID-19患者，尤其是在资源有限的地区。此外，该数据集还被用于开发预后模型，预测患者的病情发展，如是否需要插管或补充氧气。这些工具不仅减轻了医疗系统的负担，还为患者提供了更及时的干预和治疗方案。

衍生相关工作

COVID-19图像数据集衍生了许多经典的研究工作。例如，基于该数据集的研究开发了多种深度学习模型，用于COVID-19的自动检测和病情严重程度评估。相关研究还探索了肺部区域的自动分割和病变区域的定位，进一步提升了影像分析的精度。此外，该数据集还被用于多中心研究，验证不同模型的泛化能力，推动了医学影像分析领域的标准化和协作发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集