PatchCamelyon (PCam) benchmark dataset
收藏github2024-07-30 更新2024-07-31 收录
下载链接:
https://github.com/ksmooi/mscs_dl_cnn_cancer_detection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含小尺寸病理图像及其对应的标签,指示肿瘤组织的存在。图像大小为96x96像素,作为Kaggle竞赛的一部分提供。
This dataset contains small-sized pathological images along with their corresponding labels that indicate the presence of tumor tissue. The images have a size of 96×96 pixels and were provided as part of a Kaggle competition.
创建时间:
2024-07-30
原始信息汇总
Histopathologic Cancer Detection 数据集概述
数据集描述
该数据集包含小尺寸病理图像及其对应的标签,用于指示肿瘤组织的存在。图像大小为 96x96 像素,作为 Kaggle 竞赛的一部分提供。
- 训练图像数量: 220,000
- 验证图像数量: 57,000
- 图像尺寸: 96x96 像素
项目结构
train.py: 用于训练 CNN 模型的脚本。infer.py: 使用训练好的模型进行推理的脚本。HCDNetwork.py: CNN 模型架构的定义。utils.py: 数据处理和可视化的实用函数。data/: 包含数据集的目录。model/: 保存模型权重和结果的目录。
模型架构
CNN 模型 HCDNetwork 可以通过不同的卷积层数量和 dropout 率进行配置。架构包括:
- 卷积层,后跟 ReLU 激活和最大池化
- 带有 dropout 的全连接层用于正则化
- 用于分类的 Softmax 输出层
示例模型配置
python params_model = { "shape_in": (3, 96, 96), "initial_filters": 8, "num_fc1": 100, "num_classes": 2, "dropout_rate": 0.75, # Dropout 率 "num_conv_layers": 4 # 卷积层数量 }
训练和评估
训练过程包括超参数调整、尝试不同的架构和应用各种技术以提高性能。模型的性能使用 ROC 曲线下面积(AUC)进行评估。
训练结果
| 模型 | Dropout 率 | 卷积层 | 训练损失 | 训练准确率 | 训练 AUC | 验证损失 | 验证准确率 | 验证 AUC |
|---|---|---|---|---|---|---|---|---|
| A | 0.10 | 4 | 0.2042 | 0.9300 | 0.9759 | 0.4512 | 0.8087 | 0.8842 |
| B | 0.50 | 4 | 0.2447 | 0.9097 | 0.9638 | 0.4784 | 0.8000 | 0.8736 |
| C | 0.90 | 4 | 0.4314 | 0.8034 | 0.8833 | 0.4483 | 0.8125 | 0.8780 |
| D | 0.75 | 3 | 0.3515 | 0.8478 | 0.9238 | 0.3888 | 0.8400 | 0.9003 |
| E | 0.75 | 4 | 0.3862 | 0.8356 | 0.9077 | 0.3794 | 0.8450 | 0.9064 |
| F | 0.75 | 5 | 0.0881 | 0.9794 | 0.9958 | 0.6120 | 0.8113 | 0.8746 |
推理
infer.py 脚本允许使用训练好的模型对新图像进行推理。脚本加载训练好的模型,预处理输入图像,并输出预测标签和类别概率。
示例用法
python from infer import infer
加载模型并进行推理
model_path = model/trained_hcd_model.pth image_path = test/sample_image.tif pred_label, pred_probs = infer(model, image_path, device=cuda)
print(fPredicted Label: {pred_label}) print(fClass Probabilities: {pred_probs})
搜集汇总
数据集介绍

构建方式
在构建PatchCamelyon (PCam) benchmark数据集时,研究者们从大规模的数字病理扫描中提取了小尺寸的图像切片,每张图像的尺寸为96x96像素。这些图像被标记为是否包含肿瘤组织,形成了一个包含220,000张训练图像和57,000张验证图像的二分类数据集。此数据集的构建不仅考虑了临床相关性,还确保了其在深度学习模型训练中的易用性。
特点
PatchCamelyon (PCam) benchmark数据集的显著特点在于其图像的高分辨率和临床相关性。每张96x96像素的图像都经过精心标注,确保了数据集在病理学研究中的实用价值。此外,该数据集的规模适中,既适合于快速实验,也能支持复杂模型的训练,是进行癌症检测研究的理想选择。
使用方法
使用PatchCamelyon (PCam) benchmark数据集时,研究者可以通过提供的`train.py`脚本进行模型训练,使用`infer.py`脚本进行推理。数据集的预处理和可视化功能由`utils.py`中的工具函数支持。模型架构定义在`HCDNetwork.py`中,用户可以根据需要调整卷积层数量和dropout率。训练后的模型权重和结果存储在`model/`目录下,便于后续分析和应用。
背景与挑战
背景概述
PatchCamelyon (PCam) benchmark dataset 是一个专注于病理图像中识别转移性癌症的小图像数据集。该数据集由Kaggle竞赛提供,旨在通过卷积神经网络(CNN)实现二分类任务,即判断图像中是否存在转移性癌细胞。PCam数据集因其临床相关性和易用性而备受关注,为病理学领域的研究提供了宝贵的资源。该数据集包含220,000张训练图像和57,000张验证图像,每张图像尺寸为96x96像素,为深度学习模型在病理图像分析中的应用提供了丰富的数据支持。
当前挑战
PCam数据集在构建和应用过程中面临多项挑战。首先,图像分类任务的准确性要求极高,因为误诊可能导致严重的临床后果。其次,数据集的规模和复杂性要求模型具备强大的特征提取能力,以应对不同病理图像的多样性。此外,数据集的构建过程中,如何确保图像标注的准确性和一致性也是一个重要挑战。未来,通过引入正则化、批量归一化、数据增强等技术,以及探索不同的模型架构和迁移学习方法,有望进一步提升模型的性能和泛化能力。
常用场景
经典使用场景
在病理学领域,PatchCamelyon (PCam) 数据集的经典使用场景主要集中在通过卷积神经网络(CNN)进行二元图像分类,以识别小图像切片中是否存在转移性癌细胞。这一任务不仅在学术研究中具有重要意义,也在临床实践中为癌症的早期检测提供了技术支持。通过训练和验证模型,研究人员能够评估模型在区分肿瘤组织和正常组织方面的准确性,从而为病理学家提供辅助诊断工具。
实际应用
在实际应用中,PatchCamelyon (PCam) 数据集为病理学诊断提供了强有力的支持。通过训练出的高精度模型,临床医生可以快速且准确地识别病理切片中的癌细胞,从而加速诊断过程并提高诊断的准确性。此外,该数据集的应用还扩展到了远程医疗和自动化病理分析系统中,使得偏远地区的医疗机构也能享受到先进的癌症检测技术,极大地提升了医疗服务的可及性和效率。
衍生相关工作
基于PatchCamelyon (PCam) 数据集,衍生出了多项经典工作。例如,研究者们通过该数据集开发了多种先进的卷积神经网络架构,这些架构在其他医学图像分析任务中也表现出色。此外,数据集的使用还促进了数据增强技术和迁移学习方法的发展,这些方法在多个领域得到了广泛应用。同时,该数据集也为病理学领域的自动化和智能化研究提供了坚实的基础,推动了相关技术的快速发展和应用。
以上内容由遇见数据集搜集并总结生成



