COVID-19 image data collection

github2020-11-06 更新2024-05-31 收录

下载链接：

https://github.com/rezacsedu/covid-chestxray-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

构建一个公开的开放数据集，包含COVID-19阳性患者或疑似患者的胸部X光和CT图像，以及其他病毒性和细菌性肺炎的图像。数据来源于公共资源及医院和医生的间接收集，所有图像和数据在此GitHub仓库公开发布。

Construct a publicly accessible open dataset comprising chest X-ray and CT images of COVID-19 positive or suspected patients, along with images of other viral and bacterial pneumonias. The data is sourced from public resources and indirectly collected from hospitals and physicians. All images and data are publicly released in this GitHub repository.

创建时间：

2020-06-06

原始信息汇总

COVID-19 Image Data Collection

项目概述

该项目旨在构建一个公开的开放数据集，包含COVID-19阳性患者或疑似患者的胸部X光和CT图像，以及其他病毒性和细菌性肺炎（如MERS、SARS和ARDS）的图像。数据来源于公共资源及医院和医生的间接收集。所有图像和数据将在GitHub仓库中公开发布。

数据集详情

数据类型: 胸部X光和CT图像
图像格式: 胸部X光支持dcm, jpg, png；CT支持nifti (gzip格式) 和dcm
标签: 使用0=No和1=Yes进行标记
数据统计:
- COVID19_Dataset num_samples=328 views=[PA, AP]
- COVID19_Dataset num_samples=90 views=[AP Supine]
注释:
- 肺部边界框注释文件: imageannotation_ai_lung_bounding_boxes.json
- 肺炎严重程度评分: covid-severity-scores.csv
- 生成的肺部分割: lungVAE-masks

数据集用途

用于开发AI模型，预测和理解COVID-19感染情况
用于健康与肺炎的区分，以及预测病情严重程度（生存、需要插管、需要补充氧气）

贡献方式

直接提交数据至项目
帮助识别未包含的出版物
提交数据至特定网站
提供图像中问题区域的边界框/掩码

许可证

每个图像的许可证在metadata.csv文件中指定，包括Apache 2.0, CC BY-NC-SA 4.0, CC BY 4.0
metadata.csv、脚本和其他文档使用CC BY-NC-SA 4.0许可证

联系信息

项目负责人: Joseph Paul Cohen, 博士后研究员, Mila, 蒙特利尔大学
联系方式: Joseph Paul Cohen的个人网站

搜集汇总

数据集介绍

构建方式

COVID-19图像数据集的构建过程主要依赖于公开来源的数据收集，包括来自医院和医生的间接数据采集。数据集涵盖了COVID-19阳性或疑似患者的胸部X光和CT图像，同时也包含了其他病毒性和细菌性肺炎的图像。所有数据均经过蒙特利尔大学伦理委员会的批准，确保数据的合法性和伦理性。数据的收集和整理过程严格遵循科学研究的规范，确保数据的质量和可用性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了多种肺炎类型的图像，包括COVID-19、MERS、SARS和ARDS等。数据集中的图像以PA、AP和AP Supine视图呈现，每种视图都有详细的标签信息，便于研究人员进行精确的分析。此外，数据集还包含了肺部边界框和肺炎严重程度评分等辅助信息，进一步增强了数据的实用性和研究价值。

使用方法

使用该数据集时，研究人员可以通过GitHub仓库访问图像和元数据文件。数据加载器已集成到torchxrayvision库中，便于快速加载和处理数据。数据集的主要应用场景包括开发基于AI的诊断和预后预测模型，特别是针对COVID-19的肺炎严重程度预测。研究人员可以利用这些数据进行模型训练和验证，以提升诊断的准确性和效率。

背景与挑战

背景概述

COVID-19 image data collection 数据集由蒙特利尔大学的Joseph Paul Cohen等人于2020年创建，旨在为COVID-19及其他病毒性和细菌性肺炎的胸部X光和CT图像提供一个公开的数据集。该数据集通过公开来源及医院和医生的间接收集，涵盖了COVID-19、MERS、SARS和ARDS等多种肺炎类型的图像数据。该数据集的创建得到了蒙特利尔大学伦理委员会的批准，编号为CERSES-20-058-D。其核心研究问题在于通过图像数据开发基于人工智能的诊断和预后工具，以辅助临床决策。该数据集在医学影像分析和人工智能领域具有重要影响力，为研究者提供了一个标准化的数据平台，推动了COVID-19相关研究的进展。

当前挑战

COVID-19 image data collection 数据集在构建和应用过程中面临多重挑战。首先，数据集的构建需要从多个来源收集图像数据，包括公开文献和医院内部数据，这涉及到数据格式、质量和标注的一致性难题。其次，COVID-19的影像特征与其他肺炎类型存在重叠，增加了图像分类和诊断的复杂性。此外，数据集的规模相对较小，且样本分布不均衡，可能影响模型的泛化能力。在应用层面，尽管数据集为AI模型的开发提供了基础，但其临床诊断性能仍需通过严格的临床研究验证，以避免误用或过度依赖。最后，数据集的开放性和多源特性也带来了数据隐私和伦理问题，需要在数据共享和使用中加以平衡。

常用场景

经典使用场景

COVID-19 image data collection 数据集在医学影像分析领域具有重要应用，尤其是在COVID-19疫情的背景下，该数据集被广泛用于开发和验证基于人工智能的肺部影像分析模型。研究人员利用该数据集中的胸部X光和CT图像，训练深度学习模型以区分COVID-19与其他类型的肺炎，如细菌性肺炎和病毒性肺炎。这些模型能够帮助医生在临床诊断中快速识别COVID-19患者，尤其是在疫情高峰期，医疗资源紧张的情况下，提供了一种高效的辅助诊断工具。

解决学术问题

该数据集解决了医学影像分析领域中的多个关键问题。首先，它填补了COVID-19相关影像数据的空白，为研究人员提供了大量标注良好的胸部X光和CT图像。其次，通过结合临床数据，该数据集支持了基于AI的预后预测模型开发，如预测患者是否需要插管或氧气支持。这些研究不仅提升了COVID-19的诊断效率，还为其他病毒性肺炎的研究提供了宝贵的数据支持。

衍生相关工作

该数据集衍生了许多经典的研究工作。例如，基于该数据集的研究开发了多种深度学习模型，用于COVID-19的自动检测和分类。此外，一些研究利用该数据集中的标注数据，开发了肺部病变区域的自动分割算法，进一步提升了影像分析的精度。这些工作不仅推动了医学影像分析技术的发展，还为未来的公共卫生事件提供了宝贵的经验和技术储备。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集