covid-19-chest-x-ray-dataset
收藏github2024-04-20 更新2024-05-31 收录
下载链接:
https://github.com/v7labs/covid-19-xray-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含6500张AP/PA胸片X光图像,具有像素级的多边形肺部分割。数据集中有517例COVID-19病例。每张图像包含两个肺分割掩码(以多边形表示,包括心脏后方的区域),肺炎类型标签(病毒性、细菌性、真菌性、健康/无),以及COVID-19患者的额外标签,如年龄、性别、体温、位置、插管状态、ICU入院和患者结果。肺部注释遵循像素级边界的多边形。这些可以导出为`COCO`、`VOC`或`Darwin JSON`格式。每个注释文件包含原始全分辨率图像的URL以及缩略图。
This dataset comprises 6,500 AP/PA chest X-ray images with pixel-level polygonal lung segmentation. It includes 517 cases of COVID-19. Each image contains two lung segmentation masks (represented as polygons, including areas behind the heart), labels for the type of pneumonia (viral, bacterial, fungal, healthy/none), and additional labels for COVID-19 patients such as age, gender, body temperature, location, intubation status, ICU admission, and patient outcome. The lung annotations adhere to pixel-level boundary polygons. These can be exported in `COCO`, `VOC`, or `Darwin JSON` formats. Each annotation file includes the URL of the original full-resolution image as well as a thumbnail.
创建时间:
2020-06-18
原始信息汇总
COVID-19 xray 数据集概述
数据集内容
- 图像数量:包含6500张AP/PA胸片图像。
- COVID-19案例:其中包含517例COVID-19病例。
- 图像特征:每张图像包含两个“肺”分割掩码(以多边形表示,包括心脏后方的区域),肺炎类型标签(病毒性、细菌性、真菌性、健康/无),以及COVID-19患者的额外标签(年龄、性别、体温、位置、插管状态、ICU入院和患者结果)。
数据集使用
- 下载命令:
- 所有图像:
darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:all-images - COVID-19专用图像:
darwin dataset pull v7-labs/covid-19-chest-x-ray-dataset:covid-only
- 所有图像:
- 警告:此数据集不应用于临床诊断。
图像与标注
- 图像分辨率:范围从156x156到5600x4700像素。
- 肺部标注:肺部分割包括心脏大部分,有助于评估病毒性肺炎的严重程度。
- 标注格式:支持
COCO,VOC, 和Darwin JSON格式。 - 忽略类:医疗设备如起搏器和标记物被标记为“忽略”类,建议在肺部分析中排除。
数据来源与许可
- 来源1:517例COVID-19病例来自https://github.com/ieee8023/covid-chestxray-dataset。
- 来源2:5863张图像来自https://data.mendeley.com/datasets/rscbjbr9sj/2。
- 许可证:CC4.0。
特别感谢
- CloudFactory:提供人工标注劳动力。
- 多位放射学专家:提供专业知识和支持。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对大量胸部X光片的详细标注与分类,涵盖了6500张AP/PA胸部X光图像,并附有像素级的肺部分割多边形标注。这些图像主要来源于两个主要数据源:一是由Joseph Paul Cohen等人收集的COVID-19胸部X光数据集,包含517例COVID-19病例;二是从Mendeley数据集中获取的5863张图像。所有图像均由人工使用Auto-Annotate工具进行标注,并经过人工审核,确保标注的准确性和一致性。此外,数据集还包含了患者的详细信息,如年龄、性别、体温、插管状态等,为研究提供了丰富的背景数据。
使用方法
使用该数据集时,用户可以通过Darwin-py工具进行下载,支持选择全部图像或仅包含COVID-19的图像。数据集的标注文件支持COCO、VOC和Darwin JSON格式,便于不同平台的模型训练和评估。用户可以根据图像的分辨率、标注类型或标签进行筛选,以满足特定的研究需求。此外,数据集提供了详细的元数据,包括患者的健康状况和治疗信息,这些数据可以用于构建更复杂的预测模型。需要注意的是,该数据集不适用于临床诊断,主要用于学术研究和模型开发。
背景与挑战
背景概述
COVID-19胸腔X光数据集是由V7 Labs与多个研究机构合作创建的,旨在为COVID-19的医学影像分析提供高质量的资源。该数据集包含了6500张AP/PA胸腔X光图像,其中517例为COVID-19病例,且每张图像均带有像素级的肺部分割标注。数据集的创建得益于Joseph Paul Cohen、Paul Morrison和Lan Dao等研究人员的贡献,他们通过arXiv:2003.11597论文公开了COVID-19图像数据集。此数据集不仅为COVID-19的早期诊断提供了重要的研究基础,还为肺部疾病的自动检测和分类提供了宝贵的资源。
当前挑战
该数据集在构建过程中面临多项挑战。首先,图像的分辨率和来源各异,最大图像为5600x4700像素,最小为156x156像素,这为模型的训练和验证带来了不一致性。其次,部分便携式X光图像质量较低,且与严重病例高度相关,可能导致分类模型产生偏差。此外,数据集中包含的侧位X光图像未进行肺部分割标注,需在检测任务中被忽略。最后,医疗仪器和标记物的存在增加了图像处理的复杂性,需通过‘忽略’类进行过滤。这些挑战要求研究者在数据预处理和模型设计中采取相应的策略,以确保模型的准确性和鲁棒性。
常用场景
经典使用场景
在医学影像分析领域,COVID-19胸部X光数据集被广泛用于开发和验证基于深度学习的肺炎检测模型。该数据集包含了6500张带有像素级肺部分割的AP/PA胸部X光图像,其中517例为COVID-19病例。研究者可以利用这些图像进行肺部分割、病灶检测以及肺炎类型的分类,尤其是在区分COVID-19与其他类型的肺炎方面,该数据集提供了丰富的标注信息,如年龄、性别、体温等,极大地提升了模型的准确性和鲁棒性。
解决学术问题
该数据集为解决COVID-19快速诊断和肺炎类型分类的学术问题提供了重要支持。通过提供高分辨率的胸部X光图像和详细的肺部分割标注,研究者能够训练出更为精确的深度学习模型,从而在临床环境中实现快速、准确的肺炎诊断。此外,该数据集还为研究不同类型肺炎的影像学特征提供了宝贵的资源,推动了医学影像分析领域的技术进步。
实际应用
在实际应用中,COVID-19胸部X光数据集被广泛用于开发自动化诊断工具,这些工具能够辅助放射科医生快速识别COVID-19病例,并区分其与其他类型的肺炎。通过集成到医院的影像分析系统中,这些工具可以显著提高诊断效率,减少医生的工作负担,并在疫情高峰期提供重要的决策支持。此外,该数据集还可用于培训新一代的医学影像分析算法,以应对未来可能出现的类似公共卫生事件。
数据集最近研究
最新研究方向
在COVID-19疫情的背景下,COVID-19胸部X光数据集成为了医学影像分析领域的前沿研究焦点。该数据集不仅包含了6500张带有像素级肺部分割的AP/PA胸部X光图像,还特别标注了517例COVID-19病例,为深度学习模型在COVID-19检测中的应用提供了宝贵的资源。当前的研究主要集中在通过深度学习技术,如卷积神经网络(CNN),对这些图像进行自动分类和分割,以提高诊断效率和准确性。此外,结合患者的人口统计学信息和临床数据,研究者们正在探索多模态数据融合的方法,以进一步提升模型的预测能力。这些研究不仅在医学影像分析领域具有重要意义,也为全球抗击COVID-19疫情提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



