covid-19-chest-x-ray-dataset

github2024-04-20 更新2024-05-31 收录

下载链接：

https://github.com/v7labs/covid-19-xray-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含6500张AP/PA胸片X光图像，具有像素级的多边形肺部分割。数据集中有517例COVID-19病例。每张图像包含两个肺分割掩码（以多边形表示，包括心脏后方的区域），肺炎类型标签（病毒性、细菌性、真菌性、健康/无），以及COVID-19患者的额外标签，如年龄、性别、体温、位置、插管状态、ICU入院和患者结果。肺部注释遵循像素级边界的多边形。这些可以导出为`COCO`、`VOC`或`Darwin JSON`格式。每个注释文件包含原始全分辨率图像的URL以及缩略图。

This dataset comprises 6,500 AP/PA chest X-ray images with pixel-level polygonal lung segmentation. It includes 517 cases of COVID-19. Each image contains two lung segmentation masks (represented as polygons, including areas behind the heart), labels for the type of pneumonia (viral, bacterial, fungal, healthy/none), and additional labels for COVID-19 patients such as age, gender, body temperature, location, intubation status, ICU admission, and patient outcome. The lung annotations adhere to pixel-level boundary polygons. These can be exported in `COCO`, `VOC`, or `Darwin JSON` formats. Each annotation file includes the URL of the original full-resolution image as well as a thumbnail.

创建时间：

2020-06-18

原始信息汇总

COVID-19 xray 数据集概述

数据集内容

图像数量：包含6500张AP/PA胸片图像。
COVID-19案例：其中包含517例COVID-19病例。
图像特征：每张图像包含两个“肺”分割掩码（以多边形表示，包括心脏后方的区域），肺炎类型标签（病毒性、细菌性、真菌性、健康/无），以及COVID-19患者的额外标签（年龄、性别、体温、位置、插管状态、ICU入院和患者结果）。

数据集使用

下载命令：
- 所有图像：darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:all-images
- COVID-19专用图像：darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:covid-only
警告：此数据集不应用于临床诊断。

图像与标注

图像分辨率：范围从156x156到5600x4700像素。
肺部标注：肺部分割包括心脏大部分，有助于评估病毒性肺炎的严重程度。
标注格式：支持COCO, VOC, 和 Darwin JSON格式。
忽略类：医疗设备如起搏器和标记物被标记为“忽略”类，建议在肺部分析中排除。

数据来源与许可

来源1：517例COVID-19病例来自https://github.com/ieee8023/covid-chestxray-dataset。
来源2：5863张图像来自https://data.mendeley.com/datasets/rscbjbr9sj/2。
许可证：CC4.0。

特别感谢

CloudFactory：提供人工标注劳动力。
多位放射学专家：提供专业知识和支持。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对大量胸部X光片的详细标注与分类，涵盖了6500张AP/PA胸部X光图像，并附有像素级的肺部分割多边形标注。这些图像主要来源于两个主要数据源：一是由Joseph Paul Cohen等人收集的COVID-19胸部X光数据集，包含517例COVID-19病例；二是从Mendeley数据集中获取的5863张图像。所有图像均由人工使用Auto-Annotate工具进行标注，并经过人工审核，确保标注的准确性和一致性。此外，数据集还包含了患者的详细信息，如年龄、性别、体温、插管状态等，为研究提供了丰富的背景数据。

使用方法

使用该数据集时，用户可以通过Darwin-py工具进行下载，支持选择全部图像或仅包含COVID-19的图像。数据集的标注文件支持COCO、VOC和Darwin JSON格式，便于不同平台的模型训练和评估。用户可以根据图像的分辨率、标注类型或标签进行筛选，以满足特定的研究需求。此外，数据集提供了详细的元数据，包括患者的健康状况和治疗信息，这些数据可以用于构建更复杂的预测模型。需要注意的是，该数据集不适用于临床诊断，主要用于学术研究和模型开发。

背景与挑战

背景概述

COVID-19胸腔X光数据集是由V7 Labs与多个研究机构合作创建的，旨在为COVID-19的医学影像分析提供高质量的资源。该数据集包含了6500张AP/PA胸腔X光图像，其中517例为COVID-19病例，且每张图像均带有像素级的肺部分割标注。数据集的创建得益于Joseph Paul Cohen、Paul Morrison和Lan Dao等研究人员的贡献，他们通过arXiv:2003.11597论文公开了COVID-19图像数据集。此数据集不仅为COVID-19的早期诊断提供了重要的研究基础，还为肺部疾病的自动检测和分类提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临多项挑战。首先，图像的分辨率和来源各异，最大图像为5600x4700像素，最小为156x156像素，这为模型的训练和验证带来了不一致性。其次，部分便携式X光图像质量较低，且与严重病例高度相关，可能导致分类模型产生偏差。此外，数据集中包含的侧位X光图像未进行肺部分割标注，需在检测任务中被忽略。最后，医疗仪器和标记物的存在增加了图像处理的复杂性，需通过‘忽略’类进行过滤。这些挑战要求研究者在数据预处理和模型设计中采取相应的策略，以确保模型的准确性和鲁棒性。

常用场景

经典使用场景

在医学影像分析领域，COVID-19胸部X光数据集被广泛用于开发和验证基于深度学习的肺炎检测模型。该数据集包含了6500张带有像素级肺部分割的AP/PA胸部X光图像，其中517例为COVID-19病例。研究者可以利用这些图像进行肺部分割、病灶检测以及肺炎类型的分类，尤其是在区分COVID-19与其他类型的肺炎方面，该数据集提供了丰富的标注信息，如年龄、性别、体温等，极大地提升了模型的准确性和鲁棒性。

解决学术问题

该数据集为解决COVID-19快速诊断和肺炎类型分类的学术问题提供了重要支持。通过提供高分辨率的胸部X光图像和详细的肺部分割标注，研究者能够训练出更为精确的深度学习模型，从而在临床环境中实现快速、准确的肺炎诊断。此外，该数据集还为研究不同类型肺炎的影像学特征提供了宝贵的资源，推动了医学影像分析领域的技术进步。

实际应用

在实际应用中，COVID-19胸部X光数据集被广泛用于开发自动化诊断工具，这些工具能够辅助放射科医生快速识别COVID-19病例，并区分其与其他类型的肺炎。通过集成到医院的影像分析系统中，这些工具可以显著提高诊断效率，减少医生的工作负担，并在疫情高峰期提供重要的决策支持。此外，该数据集还可用于培训新一代的医学影像分析算法，以应对未来可能出现的类似公共卫生事件。

数据集最近研究