hf-vision/chest-xray-pneumonia

Name: hf-vision/chest-xray-pneumonia
Creator: hf-vision
Published: 2023-12-11 13:23:37
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hf-vision/chest-xray-pneumonia

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: label dtype: class_label: names: '0': NORMAL '1': PNEUMONIA splits: - name: train num_bytes: 3186635036.504 num_examples: 5216 - name: validation num_bytes: 3030633 num_examples: 16 - name: test num_bytes: 79062317 num_examples: 624 download_size: 1230487171 dataset_size: 3268727986.504 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* license: cc-by-4.0 --- **Dataset Summary** * The dataset is organized into 3 folders (train, test, val) and contains subfolders for each image category (Pneumonia/Normal). There are 5,863 X-Ray images (JPEG) and 2 categories (Pneumonia/Normal). * Chest X-ray images (anterior-posterior) were selected from retrospective cohorts of pediatric patients of one to five years old from Guangzhou Women and Children’s Medical Center, Guangzhou. All chest X-ray imaging was performed as part of patients’ routine clinical care. * For the analysis of chest x-ray images, all chest radiographs were initially screened for quality control by removing all low quality or unreadable scans. The diagnoses for the images were then graded by two expert physicians before being cleared for training the AI system. In order to account for any grading errors, the evaluation set was also checked by a third expert. * Summary taken from [Application of the AI System for Pneumonia Detection Using Chest X-Ray Images](https://www.cell.com/cell/fulltext/S0092-8674(18)30154-5?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867418301545%3Fshowall%3Dtrue) * [Dataset source](https://data.mendeley.com/datasets/rscbjbr9sj/2) **Citation Citation: Kermany, Daniel; Zhang, Kang; Goldbaum, Michael (2018), “Labeled Optical Coherence Tomography (OCT) and Chest X-Ray Images for Classification”, Mendeley Data, V2, doi: 10.17632/rscbjbr9sj.2

数据集信息：特征： - 字段名：图像（image），数据类型：图像 - 字段名：标签（label），数据类型：类别标签（class_label），其类别映射为：'0'对应正常（NORMAL），'1'对应肺炎（PNEUMONIA）数据集划分： - 划分名称：训练集（train），字节大小：3186635036.504，样本数：5216 - 划分名称：验证集（validation），字节大小：3030633，样本数：16 - 划分名称：测试集（test），字节大小：79062317，样本数：624 下载总大小：1230487171，数据集总存储大小：3268727986.504 配置项： - 配置名称：默认（default），数据文件路径： - 训练集（train）：data/train-* - 验证集（validation）：data/validation-* - 测试集（test）：data/test-* 许可证：cc-by-4.0 **数据集概述** * 本数据集包含训练（train）、测试（test）与验证（val，即validation）三个文件夹，每个图像类别（肺炎/正常）均设有独立子文件夹。共计收录5863张JPEG格式胸部X光图像，分为正常（NORMAL）与肺炎（PNEUMONIA）两个类别。 * 本数据集的胸部X光（后前位）图像取自广州妇女儿童医疗中心1至5岁儿科患者的回顾性队列，所有胸部X光检查均为患者常规临床诊疗的一部分。 * 针对胸部X光图像的分析流程如下：首先对所有胸部X光片开展质量控制筛查，剔除低质量或无法读取的扫描图像；随后由两名资深医师对图像的诊断结果进行分级评定，经审核合格后方可用于AI系统的训练。为规避分级误差，评估集还需由第三名专家进行复核。 * 本数据集概述摘录自论文《基于胸部X光图像的肺炎检测AI系统应用》（链接：https://www.cell.com/cell/fulltext/S0092-8674(18)30154-5?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867418301545%3Fshowall%3Dtrue） * [数据集来源](https://data.mendeley.com/datasets/rscbjbr9sj/2) **引用信息** 引用格式：Kermany, Daniel; Zhang, Kang; Goldbaum, Michael (2018), 《用于分类任务的标注光学相干断层扫描（OCT）与胸部X光图像》，Mendeley数据，V2，DOI: 10.17632/rscbjbr9sj.2

提供机构：

hf-vision

原始信息汇总

数据集概述

本数据集详情页面提供了数据集的基本信息概述。

搜集汇总

数据集介绍

构建方式

该数据集源自广州妇女儿童医疗中心，选取了1至5岁儿科患者的胸部X光图像（前后位），所有影像均采集自患者常规临床诊疗过程。构建时，首先对所有胸片进行质量控制，剔除低质量或不可读的扫描图像。随后，由两位资深医师对合格图像进行诊断标注，并引入第三位专家对评估集进行复核，以消除可能的分级误差。最终数据集共包含5,863张JPEG格式的X光图像，划分为训练集（5,216张）、测试集（624张）和验证集（16张），涵盖肺炎与正常两个类别。

特点

该数据集具有鲜明的医学影像特性，聚焦于儿童肺炎的X光诊断，类别平衡性经过精心设计。其核心优势在于多轮专家审核机制，确保了标签的高准确性，为AI系统训练提供了可靠的金标准。数据规模适中，训练集与测试集的比例合理，便于模型评估。此外，数据集采用CC-BY-4.0许可证，支持广泛学术使用，且图像均为JPEG格式，降低了存储与处理门槛。

使用方法

使用该数据集时，可通过HuggingFace Datasets库便捷加载，指定配置名称为'default'，并利用'train'、'validation'和'test'三个分片进行模型训练与评估。图像数据以PIL Image对象形式返回，标签为整数编码（0代表正常，1代表肺炎）。研究者可直接将其适配于图像分类任务，如使用预训练卷积神经网络进行迁移学习。建议在训练前对图像进行标准化预处理，并注意验证集样本量较小，可考虑将其合并至训练集或采用交叉验证策略。

背景与挑战

背景概述

肺炎作为全球范围内导致儿童死亡的主要感染性疾病之一，其早期准确诊断对于降低死亡率至关重要。在此背景下，Daniel Kermany、Kang Zhang与Michael Goldbaum等研究人员于2018年发布了这一胸部X射线影像数据集，旨在推动基于深度学习的肺炎自动检测研究。该数据集源自广州妇女儿童医疗中心，精选了5863张前后位胸部X光片，涵盖了肺炎与正常两类标签，并经过两位专家医师的独立标注与第三位专家的复核，确保了诊断的高可靠性。这一数据集的出现，为医学影像分析领域提供了宝贵的基准资源，极大地促进了计算机辅助诊断技术在儿科肺炎筛查中的发展与应用。

当前挑战

该数据集所解决的领域问题核心在于肺炎影像分类的自动化，传统依赖放射科医师人工阅片的方式不仅耗时，且易受主观经验影响，尤其在医疗资源匮乏地区难以普及。构建过程中面临多重挑战：首先，原始影像数据需经过严格的质量控制，剔除低质量或不可读的扫描图像，以确保输入数据的可靠性；其次，诊断标注需由两位专家医师独立完成，并引入第三位专家对评估集进行复核，以消除标注误差，这一流程复杂且成本高昂；此外，数据集规模有限（训练集5216例、测试集624例），且类别分布可能存在不均衡，对模型泛化能力构成了考验。

常用场景

经典使用场景

在医学影像分析领域，胸部X光片作为肺炎诊断的金标准之一，其自动化判读一直是计算机视觉与医疗交叉研究的热点。该数据集汇聚了来自广州妇女儿童医疗中心儿科患者的5,863张前后位胸部X光图像，涵盖肺炎与正常两类标签，经两位专家医师初审及第三方复核，确保了标注的权威性与可靠性。其最经典的使用场景是作为二分类任务的基准，用于训练卷积神经网络等深度学习模型，实现从图像中自动区分肺炎患者与健康个体的病灶判别，为后续模型性能评估提供了标准化的验证平台。

解决学术问题

该数据集的核心贡献在于解决了儿科肺炎影像诊断中标注数据匮乏与模型泛化性不足的学术困境。通过提供大规模、高质量且经专家交叉验证的胸部X光图像，它使得研究者能够系统性地探索深度学习模型在医学影像分类中的鲁棒性与准确性，尤其针对婴幼儿群体中常见的细菌性与病毒性肺炎的鉴别难题。这一资源显著推动了迁移学习、注意力机制等前沿技术在医疗影像上的应用，为构建可解释性强的辅助诊断系统奠定了数据基础，深刻影响了计算机辅助诊断领域的研究范式。

衍生相关工作

围绕该数据集，学术界涌现了一系列具有里程碑意义的衍生工作。Kermany等人在《Cell》上发表的原始研究首次验证了深度学习在肺炎影像分类中的临床可行性，开创了AI系统应用于儿科X光诊断的先河。此后，研究者基于该数据集提出了多种改进架构，如引入注意力机制的CheXNet变体、结合多尺度特征融合的DenseNet模型，以及利用生成对抗网络进行数据增强以提升少样本下的分类性能。这些工作不仅深化了对医学影像特征提取的理解，还催生了如ChestX-ray14等更大规模数据集的构建，持续推动着智能医疗影像分析领域的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集