five

PatchCamelyon (PCam) benchmark dataset

收藏
github2024-07-30 更新2024-07-31 收录
下载链接:
https://github.com/ksmooi/mscs_dl_cnn_cancer_detection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含小尺寸病理图像及其对应的标签,指示肿瘤组织的存在。图像大小为96x96像素,作为Kaggle竞赛的一部分提供。

This dataset contains small-sized pathological images along with their corresponding labels that indicate the presence of tumor tissue. The images have a size of 96×96 pixels and were provided as part of a Kaggle competition.
创建时间:
2024-07-30
原始信息汇总

Histopathologic Cancer Detection 数据集概述

数据集描述

该数据集包含小尺寸病理图像及其对应的标签,用于指示肿瘤组织的存在。图像大小为 96x96 像素,作为 Kaggle 竞赛的一部分提供。

  • 训练图像数量: 220,000
  • 验证图像数量: 57,000
  • 图像尺寸: 96x96 像素

项目结构

  • train.py: 用于训练 CNN 模型的脚本。
  • infer.py: 使用训练好的模型进行推理的脚本。
  • HCDNetwork.py: CNN 模型架构的定义。
  • utils.py: 数据处理和可视化的实用函数。
  • data/: 包含数据集的目录。
  • model/: 保存模型权重和结果的目录。

模型架构

CNN 模型 HCDNetwork 可以通过不同的卷积层数量和 dropout 率进行配置。架构包括:

  • 卷积层,后跟 ReLU 激活和最大池化
  • 带有 dropout 的全连接层用于正则化
  • 用于分类的 Softmax 输出层

示例模型配置

python params_model = { "shape_in": (3, 96, 96), "initial_filters": 8, "num_fc1": 100, "num_classes": 2, "dropout_rate": 0.75, # Dropout 率 "num_conv_layers": 4 # 卷积层数量 }

训练和评估

训练过程包括超参数调整、尝试不同的架构和应用各种技术以提高性能。模型的性能使用 ROC 曲线下面积(AUC)进行评估。

训练结果

模型 Dropout 率 卷积层 训练损失 训练准确率 训练 AUC 验证损失 验证准确率 验证 AUC
A 0.10 4 0.2042 0.9300 0.9759 0.4512 0.8087 0.8842
B 0.50 4 0.2447 0.9097 0.9638 0.4784 0.8000 0.8736
C 0.90 4 0.4314 0.8034 0.8833 0.4483 0.8125 0.8780
D 0.75 3 0.3515 0.8478 0.9238 0.3888 0.8400 0.9003
E 0.75 4 0.3862 0.8356 0.9077 0.3794 0.8450 0.9064
F 0.75 5 0.0881 0.9794 0.9958 0.6120 0.8113 0.8746

推理

infer.py 脚本允许使用训练好的模型对新图像进行推理。脚本加载训练好的模型,预处理输入图像,并输出预测标签和类别概率。

示例用法

python from infer import infer

加载模型并进行推理

model_path = model/trained_hcd_model.pth image_path = test/sample_image.tif pred_label, pred_probs = infer(model, image_path, device=cuda)

print(fPredicted Label: {pred_label}) print(fClass Probabilities: {pred_probs})

搜集汇总
数据集介绍
main_image_url
构建方式
在构建PatchCamelyon (PCam) benchmark数据集时,研究者们从大规模的数字病理扫描中提取了小尺寸的图像切片,每张图像的尺寸为96x96像素。这些图像被标记为是否包含肿瘤组织,形成了一个包含220,000张训练图像和57,000张验证图像的二分类数据集。此数据集的构建不仅考虑了临床相关性,还确保了其在深度学习模型训练中的易用性。
特点
PatchCamelyon (PCam) benchmark数据集的显著特点在于其图像的高分辨率和临床相关性。每张96x96像素的图像都经过精心标注,确保了数据集在病理学研究中的实用价值。此外,该数据集的规模适中,既适合于快速实验,也能支持复杂模型的训练,是进行癌症检测研究的理想选择。
使用方法
使用PatchCamelyon (PCam) benchmark数据集时,研究者可以通过提供的`train.py`脚本进行模型训练,使用`infer.py`脚本进行推理。数据集的预处理和可视化功能由`utils.py`中的工具函数支持。模型架构定义在`HCDNetwork.py`中,用户可以根据需要调整卷积层数量和dropout率。训练后的模型权重和结果存储在`model/`目录下,便于后续分析和应用。
背景与挑战
背景概述
PatchCamelyon (PCam) benchmark dataset 是一个专注于病理图像中识别转移性癌症的小图像数据集。该数据集由Kaggle竞赛提供,旨在通过卷积神经网络(CNN)实现二分类任务,即判断图像中是否存在转移性癌细胞。PCam数据集因其临床相关性和易用性而备受关注,为病理学领域的研究提供了宝贵的资源。该数据集包含220,000张训练图像和57,000张验证图像,每张图像尺寸为96x96像素,为深度学习模型在病理图像分析中的应用提供了丰富的数据支持。
当前挑战
PCam数据集在构建和应用过程中面临多项挑战。首先,图像分类任务的准确性要求极高,因为误诊可能导致严重的临床后果。其次,数据集的规模和复杂性要求模型具备强大的特征提取能力,以应对不同病理图像的多样性。此外,数据集的构建过程中,如何确保图像标注的准确性和一致性也是一个重要挑战。未来,通过引入正则化、批量归一化、数据增强等技术,以及探索不同的模型架构和迁移学习方法,有望进一步提升模型的性能和泛化能力。
常用场景
经典使用场景
在病理学领域,PatchCamelyon (PCam) 数据集的经典使用场景主要集中在通过卷积神经网络(CNN)进行二元图像分类,以识别小图像切片中是否存在转移性癌细胞。这一任务不仅在学术研究中具有重要意义,也在临床实践中为癌症的早期检测提供了技术支持。通过训练和验证模型,研究人员能够评估模型在区分肿瘤组织和正常组织方面的准确性,从而为病理学家提供辅助诊断工具。
实际应用
在实际应用中,PatchCamelyon (PCam) 数据集为病理学诊断提供了强有力的支持。通过训练出的高精度模型,临床医生可以快速且准确地识别病理切片中的癌细胞,从而加速诊断过程并提高诊断的准确性。此外,该数据集的应用还扩展到了远程医疗和自动化病理分析系统中,使得偏远地区的医疗机构也能享受到先进的癌症检测技术,极大地提升了医疗服务的可及性和效率。
衍生相关工作
基于PatchCamelyon (PCam) 数据集,衍生出了多项经典工作。例如,研究者们通过该数据集开发了多种先进的卷积神经网络架构,这些架构在其他医学图像分析任务中也表现出色。此外,数据集的使用还促进了数据增强技术和迁移学习方法的发展,这些方法在多个领域得到了广泛应用。同时,该数据集也为病理学领域的自动化和智能化研究提供了坚实的基础,推动了相关技术的快速发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作