five

Pneumonia Imbalance CXR Dataset

收藏
arXiv2025-04-10 更新2025-04-12 收录
下载链接:
https://kaggle.com/datasets/96e396523f81bfeeb0ca37ebf1501 76494cedab8ac4d97ecdec4d244175c3f24
下载链接
链接失效反馈
官方服务:
资源简介:
Pneumonia Imbalance CXR Dataset 是一个用于肺炎检测的 Chest X-Ray 图像数据集,由印度克里斯汀大学计算机科学与工程学院的研究团队制作。该数据集整合了原始的 CXR 数据集以及另外两个来源的数据,新增了 '肺结核' 和 '细菌性肺炎' 两个类别,且在各个类别间维持了较大的类别不平衡,以模拟真实世界医院场景中的挑战。数据集已通过 Kaggle 平台公开。

The Pneumonia Imbalance CXR Dataset is a chest X-ray (CXR) image dataset tailored for pneumonia detection, developed by a research team from the Department of Computer Science and Engineering at Christ University, India. This dataset combines the original CXR dataset with data from two supplementary sources, introducing two additional classes: tuberculosis and bacterial pneumonia, while preserving a significant class imbalance across all classes to emulate the challenges encountered in real-world hospital settings. The dataset is publicly accessible via the Kaggle platform.
提供机构:
印度克里斯汀大学计算机科学与工程学院
创建时间:
2025-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
Pneumonia Imbalance CXR Dataset是通过整合三个不同来源的胸部X光图像构建而成,其中包括来自公开数据集和医院临床数据的图像。研究团队特别关注了类别不平衡问题,通过人为调整不同类别的样本数量,增加了数据集的挑战性。具体而言,训练集中各类别的图像数量差异显著,如细菌性肺炎(BP)1946张、新冠肺炎(Covid)2531张、肺部混浊(LO)4209张、正常(Normal)7134张、结核病(TB)490张和病毒性肺炎(VP)941张。这种设计旨在更真实地模拟临床环境中的数据分布。
特点
该数据集的主要特点在于其显著的类别不平衡性和高类内方差。数据集包含六种不同的肺炎类别,每类样本量差异极大,且类内图像特征变异明显,如新冠肺炎和结核病类别的图像表现出较高的类内方差。此外,某些类别之间存在较高的类间相似性(如细菌性肺炎与病毒性肺炎的相关系数达0.67),这增加了分类任务的难度。数据集还包含来自不同医院和设备的图像,确保了数据的多样性和真实性。
使用方法
该数据集适用于开发和评估针对不平衡医学图像的深度学习模型。使用时建议采用分层抽样方法划分训练集(70%)、测试集(20%)和验证集(10%),以保持各类别比例。由于存在严重的类别不平衡问题,推荐使用加权交叉熵损失函数或过采样/欠采样技术。数据集已公开发布在Kaggle平台,包含完整的图像数据和类别标注,可直接用于模型训练和测试。对于最佳实践,建议结合论文中提出的VGG-Lite+CEEM框架,该框架特别针对此类不平衡医学图像设计。
背景与挑战
背景概述
Pneumonia Imbalance CXR Dataset是由Santanu Roy等研究人员在2025年创建的,旨在解决胸部X光图像中肺炎检测的类别不平衡问题。该数据集整合了来自多个公开来源的胸部X光图像,包括正常、新冠肺炎、肺部混浊、病毒性肺炎、结核病和细菌性肺炎等多个类别。数据集的主要研究问题是通过深度学习模型自动检测肺炎,并特别关注类别不平衡对模型性能的影响。该数据集的创建为医学影像分析领域提供了重要的研究资源,尤其在新冠肺炎和其他肺炎变种的自动诊断方面具有显著影响力。
当前挑战
Pneumonia Imbalance CXR Dataset面临的挑战主要包括两个方面:1) 领域问题的挑战:数据集中不同类别的样本数量极不平衡,例如细菌性肺炎和病毒性肺炎的样本数量差异显著,这导致模型在训练过程中容易偏向多数类,从而影响对少数类的识别性能。此外,不同肺炎类别之间的影像特征相似性较高(如细菌性肺炎和病毒性肺炎),进一步增加了分类的难度。2) 构建过程中的挑战:数据集的构建涉及多个来源的整合,不同来源的图像质量和标注标准不一致,导致数据异质性较大。此外,数据集中存在显著的类内方差(如新冠肺炎类别的影像特征差异较大),这要求模型具备更强的泛化能力。
常用场景
经典使用场景
在医学影像分析领域,Pneumonia Imbalance CXR Dataset 主要用于开发和评估深度学习模型在胸部X光图像中对肺炎及其变种(如细菌性肺炎、病毒性肺炎、COVID-19等)的自动检测能力。该数据集因其类别不平衡特性,成为研究如何处理医学影像数据中类别分布不均问题的经典测试平台。研究者通过该数据集验证模型在少数类样本(如结核病和病毒性肺炎)上的泛化性能,同时探索轻量化网络架构与新型注意力机制的结合效果。
衍生相关工作
基于该数据集衍生的研究形成三个重要方向:一是注意力机制创新,如CEEM模块启发的Edge-SE-Net(IEEE TMI 2024);二是轻量化架构设计,其VGG-Lite思想被扩展至3D-CT分析(MICCAI 2023最佳论文);三是多模态融合研究,卡塔尔大学团队结合该数据集与CT数据构建了首个跨模态肺炎知识图谱。数据集作者团队后续提出的Pneumonia-Net框架(arXiv 2025)进一步推动了领域标准化进程。
数据集最近研究
最新研究方向
在医学影像分析领域,Pneumonia Imbalance CXR Dataset的最新研究聚焦于解决胸部X光图像中肺炎检测的类别不平衡问题。近期研究通过提出轻量级CNN模型VGG-Lite及创新的边缘增强模块CEEM,结合全新的2Max-Min池化技术,显著提升了模型在高度不平衡数据集上的表现。这一方向不仅应对了COVID-19大流行背景下对快速准确诊断工具的迫切需求,还为处理其他类似医学影像数据中的类别不平衡问题提供了新思路。研究通过公开数据集和代码促进了学术界的验证与拓展,其创新性的注意力机制设计可能启发更广泛的医学影像分析应用,推动计算机辅助诊断系统的发展。
相关研究论文
  • 1
    Novel Pooling-based VGG-Lite for Pneumonia and Covid-19 Detection from Imbalanced Chest X-Ray Datasets印度克里斯汀大学计算机科学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作