Chest X-ray Images (Pneumonia)|医学影像数据集|深度学习数据集
收藏肺炎检测使用深度学习
概述
本项目利用深度学习技术,特别是VGG16卷积神经网络,从胸部X光图像中检测肺炎。模型在一个由“正常”或“肺炎”标签的图像组成的数据集上进行训练。
数据集
本项目使用的数据集来自Kaggle [https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia]。它包含两个主要类别:
- 正常:没有肺炎的患者的胸部X光图像。
- 肺炎:被诊断为肺炎的患者的胸部X光图像。
数据集被分为训练集和测试集,并使用Keras的ImageDataGenerator
进行适当的预处理。
模型架构
采用在ImageNet上预训练的VGG16模型作为基础模型。VGG16的顶层被调整以适应肺炎检测的二分类任务。通过冻结卷积基并仅训练自定义分类器层来微调模型。
训练
模型编译时使用:
- 损失函数:适用于多类分类的分类交叉熵。
- 优化器:用于有效权重更新的Adam优化器。
- 指标:在训练期间监控模型性能的准确度指标。
训练过程涉及通过ImageDataGenerator
生成的增强图像批次进行迭代,优化模型参数以最小化损失函数。
评估
模型性能在单独的测试集上进行评估,以评估其对未见数据的泛化能力。评估指标包括训练和验证集在各个时期的准确度和损失。
预测
训练完成后,模型可以对新的胸部X光图像进行预测,将它们分类为正常或指示肺炎。预测基于模型softmax层的最高概率输出。
文件结构
- Pneumonia.py:包含模型定义、训练和保存的Python脚本。
- Test.py:用于加载训练好的模型并对新图像进行预测的Python脚本。
- Requirements.txt:运行项目所需的Python包列表。
- LossVal_loss.png:显示模型训练期间训练和验证损失的图表。
- AccVal_acc.png:显示模型训练期间训练和验证准确度的图表。
- pneumonia_model.keras:包含训练好的权重和架构的保存模型文件。
使用
使用本项目的步骤:
- 安装
requirements.txt
中列出的必要依赖项。 - 使用
Pneumonia.py
训练模型。 - 使用生成的图表评估模型性能并可视化训练历史。
- 使用
Test.py
对新图像进行预测。
依赖项
确保安装以下依赖项:
- Keras
- TensorFlow
- Matplotlib
- NumPy
未来改进
- 纳入更高级的架构,如ResNet或DenseNet,以可能提高性能。
- 尝试不同的增强技术,以进一步提高模型的泛化能力。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
2000-2018年中国典型生态系统植物生长节律数据
该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据,包括木本植物、草本植物、水稻、小麦、玉米物候数据表,木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录;草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据;水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录;小麦数据表有9个台站不同生育期382条记录;玉米数据表有18个台站不同生育期532条数据。
地球大数据科学工程 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
全国景区数据
中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。 CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!
CnOpenData 收录