COVID-19 image data collection
收藏github2020-11-10 更新2024-05-31 收录
下载链接:
https://github.com/abhilash-arora/covid-chestxray-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该项目旨在构建一个公开的开放数据集,包含COVID-19阳性或疑似患者的胸部X光和CT图像,以及其他病毒性和细菌性肺炎的图像。数据来源于公共资源及医院和医生的间接收集,所有图像和数据将在此GitHub仓库公开发布。
This project aims to construct a publicly available open dataset that contains chest X-ray and CT images of patients with positive or suspected COVID-19, as well as images of other viral and bacterial pneumonia cases. The data is sourced from public resources and indirectly collected from hospitals and physicians. All images and data will be publicly released in this GitHub repository.
创建时间:
2020-10-20
原始信息汇总
COVID-19图像数据收集
项目概述
该项目旨在构建一个公开的胸部X光和CT图像数据集,包含COVID-19阳性或疑似患者以及其他病毒性和细菌性肺炎(如MERS、SARS和ARDS)的图像。数据将从公共来源以及通过间接从医院和医生收集。所有图像和数据将在此GitHub仓库中公开发布。
数据集详情
- 样本数量:
- PA和AP视图:481个样本
- AP Supine视图:173个样本
- 标签层次结构:
- 标签分为0(否)和1(是)
- 具体标签包括:ARDS、Bacterial、COVID-19、Chlamydophila、E.Coli、Fungal、Influenza、Klebsiella、Legionella、Lipoid、MERS、Mycoplasma、No Finding、Pneumocystis、Pneumonia、SARS、Streptococcus、Varicella、Viral
注释
- 肺边界框:由General Blockchain, Inc.贡献,使用CC BY 4.0许可证
- 肺炎严重程度评分:94张图像的评分,来自论文《使用深度学习预测COVID-19肺炎严重程度的胸部X光图像》,使用CC BY-SA许可证
- 生成的肺分割:来自论文《使用变分数据插补进行胸部X光图像的肺分割》,使用CC BY-SA许可证
- Brixia评分:192张图像的评分,来自论文《COVID-19胸部X光图像的端到端学习进行半定量评分》,使用CC BY-NC-SA许可证
- 肺和其他分割:517张图像的分割,使用CC BY许可证,由v7labs提供
贡献
- 可以直接向项目提交数据,查看研究协议并联系项目团队开始流程。
- 帮助识别未包含的出版物,使用GitHub问题提交(已有的DOI列在元数据文件中)。
- 提交数据到以下网站(项目团队可以从中抓取数据):
- radiopaedia.org(使用CC BY-NC-SA许可证)
- sirm.org
- eurorad.org(使用CC BY-NC-SA许可证)
- coronacases.org(首选CT扫描,使用Apache 2.0许可证)
- 提供已收集图像中问题区域的边界框/掩码。
背景
在COVID-19大流行背景下,我们希望通过这些图像开发基于AI的预测和理解感染的方法。我们的目标是使用这些图像来开发AI辅助的预测工具,并将其发布在我们的开源平台Chester AI Radiology Assistant上。
目标
使用胸部X光或CT图像(首选X光)作为输入,预测以下任务:
- 健康 vs 肺炎
- 预测严重程度(生存、需要插管、需要补充氧气)
预期成果
- 工具影响:为医生提供额外的信心,并在等待放射科医生分析时提供数字第二意见。
- 数据影响:将图像数据与临床相关属性链接的公共数据集,可用于并行开发这些工具和快速本地验证模型。
联系
项目负责人:Joseph Paul Cohen,Mila,蒙特利尔大学博士后研究员
许可证
每个图像的许可证在metadata.csv文件中指定,包括Apache 2.0、CC BY-NC-SA 4.0、CC BY 4.0。metadata.csv、脚本和其他文档使用CC BY-NC-SA 4.0许可证发布。
搜集汇总
数据集介绍

构建方式
COVID-19图像数据集的构建过程主要依赖于公开数据源以及医院和医生的间接收集。数据集涵盖了COVID-19患者以及其他病毒性和细菌性肺炎(如MERS、SARS和ARDS)的胸部X光和CT图像。所有图像和数据均通过GitHub仓库公开发布,并获得了蒙特利尔大学伦理委员会的批准(编号CERSES-20-058-D)。数据集的构建旨在为计算分析提供支持,特别是在COVID-19大流行的背景下,帮助改进预后预测和患者管理。
特点
该数据集的特点在于其多样性和层次化的标签结构。数据集包含481个样本,涵盖了PA、AP和AP Supine三种视图,并标注了多种疾病状态,如COVID-19、细菌性肺炎、病毒性肺炎等。每个样本的标签以0或1的形式表示是否存在特定疾病。此外,数据集还提供了肺部边界框、胸部X光分割、肺炎严重程度评分等多种注释信息,这些注释信息由多个研究团队贡献,并遵循不同的开源许可协议。
使用方法
该数据集的使用方法主要围绕AI模型的开发和验证展开。研究人员可以利用这些图像数据开发基于AI的诊断和预后预测工具,例如区分健康与肺炎、预测患者是否需要插管或补充氧气等。数据集中的图像和注释信息可以直接用于训练深度学习模型,并通过公开的代码库(如torchxrayvision)进行数据加载和预处理。此外,研究人员还可以通过GitHub提交新的数据或注释,进一步丰富数据集的内容。数据集的使用需遵循相应的许可协议,确保研究合规性。
背景与挑战
背景概述
COVID-19 image data collection 数据集创建于2020年,由蒙特利尔大学的Joseph Paul Cohen及其团队主导开发。该数据集旨在收集COVID-19患者及其他病毒性和细菌性肺炎患者的胸部X光和CT图像,以支持基于人工智能的诊断和预后研究。数据集的核心研究问题是通过图像分析技术,提升对COVID-19及其他肺炎类型的诊断准确性和预后预测能力。该数据集的发布为医学影像分析领域提供了重要的开放资源,推动了相关算法的开发与验证,尤其是在全球COVID-19大流行的背景下,具有显著的科学与社会价值。
当前挑战
该数据集在构建过程中面临多重挑战。首先,COVID-19影像数据的获取需要严格的伦理审查和临床合作,数据来源的多样性和质量难以统一。其次,影像数据的标注需要专业医学知识,确保标签的准确性和一致性是一项复杂任务。此外,数据集的目标是支持多种任务,如肺炎类型分类和预后预测,这对数据的多样性和规模提出了更高要求。最后,由于COVID-19影像特征与其他肺炎类型存在重叠,如何设计有效的算法以区分这些特征,是模型开发中的核心挑战。
常用场景
经典使用场景
COVID-19 image data collection 数据集在医学影像分析领域具有广泛的应用,尤其是在COVID-19疫情的背景下,该数据集为研究人员提供了丰富的胸部X光和CT图像资源。这些图像涵盖了COVID-19、SARS、MERS等多种病毒性和细菌性肺炎病例,使得研究者能够通过深度学习模型进行疾病分类和诊断。该数据集常用于训练和验证AI模型,以区分健康患者与肺炎患者,并进一步识别COVID-19与其他类型的肺炎。
解决学术问题
该数据集解决了医学影像分析中的多个关键问题,尤其是在COVID-19诊断和预后预测方面。通过提供大量标注的胸部X光和CT图像,研究人员能够开发出更精确的AI模型,用于区分不同类型的肺炎,并预测患者的病情严重程度。这不仅有助于提高诊断的准确性,还为临床决策提供了支持,帮助医生在等待放射科医生分析结果时做出更及时的判断。
衍生相关工作
该数据集衍生了许多经典的研究工作,尤其是在COVID-19影像分析领域。例如,基于该数据集的研究开发了多种深度学习模型,用于肺炎分类、病情严重程度预测和肺部区域分割。相关研究还提出了多种评估方法,以确保模型的临床适用性。此外,该数据集还推动了多个开源工具和平台的开发,如Chester AI Radiology Assistant,进一步促进了医学影像分析技术的普及和应用。
以上内容由遇见数据集搜集并总结生成



