pulmo/chest-xray-images

Name: pulmo/chest-xray-images
Creator: pulmo
Published: 2026-05-01 20:39:50
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/pulmo/chest-xray-images

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是一个关于COVID-19胸部X光和CT图像的公开数据集，旨在收集COVID-19阳性或疑似患者以及其他病毒性和细菌性肺炎（如MERS、SARS和ARDS）的图像数据。数据集包括来自公共来源和医院间接收集的图像，所有图像和数据都在GitHub仓库中公开发布。数据集的任务类别包括图像分类和图像分割，主要用于开发基于AI的预测和理解感染的方法。

This dataset is a public open dataset of chest X-ray and CT images of patients who are positive or suspected of COVID-19 or other viral and bacterial pneumonias (such as MERS, SARS, and ARDS). The data is collected from public sources as well as through indirect collection from hospitals and physicians. All images and data are released publicly in this GitHub repository. The datasets task categories include image classification and image segmentation, primarily used to develop AI-based approaches to predict and understand the infection.

提供机构：

pulmo

搜集汇总

数据集介绍

构建方式

该数据集由蒙特利尔大学伦理委员会批准，旨在构建一个公开的胸部X光及CT影像集合，涵盖COVID-19阳性或疑似病例，以及其他病毒性和细菌性肺炎（如MERS、SARS、ARDS）的影像数据。数据来源于公共资源库、医院及医生的间接贡献，并通过系统化爬取与手动筛选进行扩充。所有影像均以DICOM、JPG、PNG或NIfTI格式存储，并附有详细的元数据，包括标签层次结构。构建过程中，特别关注了多中心合作的可行性，以增强数据集的代表性与多样性。

使用方法

该数据集适用于图像分类与语义分割任务，可通过读取元数据文件（metadata.csv）和影像目录直接加载。推荐使用torchxrayvision库中的数据加载器示例，该加载器支持按视图筛选样本，并高效处理多标签标注。研究人员可结合预训练的深度学习模型（如Chester AI Radiology Assistant）进行迁移学习，开发针对COVID-19肺炎筛查、预后预测（如生存率、插管需求）或严重程度评分的工具。此外，外部分割数据集（如肺部掩膜）可通过独立下载与主数据关联，形成端到端的分析流程，便于快速验证模型性能。

背景与挑战

背景概述

该数据集创建于2020年初，由蒙特利尔大学Mila研究所的Joseph Paul Cohen博士后研究员主导，联合Paul Morrison、Lan Dao等多位学者及机构共同构建。核心研究问题在于应对COVID-19大流行背景下，亟需一个专为计算分析设计的公开胸部X光及CT影像集合，以推动基于人工智能的预后预测工具开发，辅助患者分诊与临床决策。此前虽存在NIH、斯坦福等机构发布的大型胸部X光数据集，但均缺乏针对COVID-19的影像数据。该数据集汇聚了来自公开来源及医院间接收集的COVID-19阳性或疑似病例影像，涵盖多种病毒性及细菌性肺炎类型，并附带详细的元数据与多种分割标注。其发布迅速成为全球COVID-19医学影像分析研究的关键资源，催生了大量深度学习模型与临床应用探索，显著提升了医学影像在疫情防控中的价值。

当前挑战

该领域面临的核心挑战在于：第一，COVID-19肺炎在胸部X光及CT影像上的表现与其它病毒性肺炎（如SARS、MERS）存在重叠，仅凭视觉特征难以精确区分，亟需AI模型提升诊断特异性。第二，数据构建过程中遭遇显著障碍：早期疫情下病例影像获取困难，数据来源分散于多个公开平台与医疗机构，需协调不同许可协议（如CC BY-NC-SA、Apache 2.0）进行合规整合；影像质量参差不齐、拍摄体位（PA、AP、AP Supine）与设备差异增大标注难度；且样本量有限（仅数百至数千张），存在类别严重不平衡问题（如ARDS、Influenza等类别仅少数样本），对模型泛化能力构成严峻考验。此外，数据标注需依赖放射学专家进行多标签分类（涉及19种病理发现）与严重程度评分，人力与时间成本高昂。

常用场景

经典使用场景

在医学影像分析领域，胸片数据集常被用于构建肺炎识别与分类的深度学习模型。该数据集汇聚了新冠肺炎、细菌性肺炎、病毒性肺炎等多种呼吸系统疾病的X光与CT图像，为多标签分类任务提供了宝贵资源。研究人员基于这些影像，可开发能够区分不同病原体所致肺炎的智能诊断系统，尤其聚焦于新冠肺炎的快速筛查。经典用法涵盖图像级分类以判断是否存在感染，以及利用分割技术勾勒肺野区域或病灶轮廓，从而提升诊断的精准度与可解释性。

解决学术问题

该数据集有效应对了新冠疫情初期公共影像资源匮乏的挑战，解决了缺乏标准化、多类别肺炎影像数据集的学术困境。研究者能够借此探究深度学习模型在鉴别新冠肺炎与常规肺炎时的效能边界，并验证算法在不同影像视角（如PA与AP位）下的泛化能力。它为检验模型在有限样本下的鲁棒性提供了基准，推动了少样本学习与数据增强技术在医疗影像中的探索，显著降低了开发AI辅助诊断工具的门槛，深化了对胸部影像病理模式的理解。

实际应用

在实际临床环境中，基于该数据集训练的模型可部署为放射科医生的辅助诊断工具，用于快速初筛新冠肺炎疑似病例，缓解核酸检测的压力。通过量化肺部病变的严重程度（如Brixia评分），模型能够帮助医生评估患者病情进展并制定治疗方案，尤其适用于医疗资源紧张的场景。此外，该数据集还支持构建远程影像会诊系统，为偏远地区提供更高效的胸部异常检测服务，从而提升整体诊疗效率。

数据集最近研究