PatchCamelyon (PCam) benchmark dataset

github2024-07-30 更新2024-07-31 收录

下载链接：

https://github.com/ksmooi/mscs_dl_cnn_cancer_detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含小尺寸病理图像及其对应的标签，指示肿瘤组织的存在。图像大小为96x96像素，作为Kaggle竞赛的一部分提供。

This dataset contains small-sized pathological images along with their corresponding labels that indicate the presence of tumor tissue. The images have a size of 96×96 pixels and were provided as part of a Kaggle competition.

创建时间：

2024-07-30

原始信息汇总

Histopathologic Cancer Detection 数据集概述

数据集描述

该数据集包含小尺寸病理图像及其对应的标签，用于指示肿瘤组织的存在。图像大小为 96x96 像素，作为 Kaggle 竞赛的一部分提供。

训练图像数量: 220,000
验证图像数量: 57,000
图像尺寸: 96x96 像素

项目结构

train.py: 用于训练 CNN 模型的脚本。
infer.py: 使用训练好的模型进行推理的脚本。
HCDNetwork.py: CNN 模型架构的定义。
utils.py: 数据处理和可视化的实用函数。
data/: 包含数据集的目录。
model/: 保存模型权重和结果的目录。

模型架构

CNN 模型 HCDNetwork 可以通过不同的卷积层数量和 dropout 率进行配置。架构包括：

卷积层，后跟 ReLU 激活和最大池化
带有 dropout 的全连接层用于正则化
用于分类的 Softmax 输出层

示例模型配置

python params_model = { "shape_in": (3, 96, 96), "initial_filters": 8, "num_fc1": 100, "num_classes": 2, "dropout_rate": 0.75, # Dropout 率 "num_conv_layers": 4 # 卷积层数量 }

训练和评估

训练过程包括超参数调整、尝试不同的架构和应用各种技术以提高性能。模型的性能使用 ROC 曲线下面积（AUC）进行评估。

训练结果

模型	Dropout 率	卷积层	训练损失	训练准确率	训练 AUC	验证损失	验证准确率	验证 AUC
A	0.10	4	0.2042	0.9300	0.9759	0.4512	0.8087	0.8842
B	0.50	4	0.2447	0.9097	0.9638	0.4784	0.8000	0.8736
C	0.90	4	0.4314	0.8034	0.8833	0.4483	0.8125	0.8780
D	0.75	3	0.3515	0.8478	0.9238	0.3888	0.8400	0.9003
E	0.75	4	0.3862	0.8356	0.9077	0.3794	0.8450	0.9064
F	0.75	5	0.0881	0.9794	0.9958	0.6120	0.8113	0.8746

推理

infer.py 脚本允许使用训练好的模型对新图像进行推理。脚本加载训练好的模型，预处理输入图像，并输出预测标签和类别概率。

示例用法

python from infer import infer

加载模型并进行推理

model_path = model/trained_hcd_model.pth image_path = test/sample_image.tif pred_label, pred_probs = infer(model, image_path, device=cuda)

print(fPredicted Label: {pred_label}) print(fClass Probabilities: {pred_probs})

搜集汇总

数据集介绍

构建方式

在构建PatchCamelyon (PCam) benchmark数据集时，研究者们从大规模的数字病理扫描中提取了小尺寸的图像切片，每张图像的尺寸为96x96像素。这些图像被标记为是否包含肿瘤组织，形成了一个包含220,000张训练图像和57,000张验证图像的二分类数据集。此数据集的构建不仅考虑了临床相关性，还确保了其在深度学习模型训练中的易用性。

特点

PatchCamelyon (PCam) benchmark数据集的显著特点在于其图像的高分辨率和临床相关性。每张96x96像素的图像都经过精心标注，确保了数据集在病理学研究中的实用价值。此外，该数据集的规模适中，既适合于快速实验，也能支持复杂模型的训练，是进行癌症检测研究的理想选择。

使用方法

使用PatchCamelyon (PCam) benchmark数据集时，研究者可以通过提供的`train.py`脚本进行模型训练，使用`infer.py`脚本进行推理。数据集的预处理和可视化功能由`utils.py`中的工具函数支持。模型架构定义在`HCDNetwork.py`中，用户可以根据需要调整卷积层数量和dropout率。训练后的模型权重和结果存储在`model/`目录下，便于后续分析和应用。

背景与挑战

背景概述

PatchCamelyon (PCam) benchmark dataset 是一个专注于病理图像中识别转移性癌症的小图像数据集。该数据集由Kaggle竞赛提供，旨在通过卷积神经网络（CNN）实现二分类任务，即判断图像中是否存在转移性癌细胞。PCam数据集因其临床相关性和易用性而备受关注，为病理学领域的研究提供了宝贵的资源。该数据集包含220,000张训练图像和57,000张验证图像，每张图像尺寸为96x96像素，为深度学习模型在病理图像分析中的应用提供了丰富的数据支持。

当前挑战

PCam数据集在构建和应用过程中面临多项挑战。首先，图像分类任务的准确性要求极高，因为误诊可能导致严重的临床后果。其次，数据集的规模和复杂性要求模型具备强大的特征提取能力，以应对不同病理图像的多样性。此外，数据集的构建过程中，如何确保图像标注的准确性和一致性也是一个重要挑战。未来，通过引入正则化、批量归一化、数据增强等技术，以及探索不同的模型架构和迁移学习方法，有望进一步提升模型的性能和泛化能力。

常用场景

经典使用场景

在病理学领域，PatchCamelyon (PCam) 数据集的经典使用场景主要集中在通过卷积神经网络（CNN）进行二元图像分类，以识别小图像切片中是否存在转移性癌细胞。这一任务不仅在学术研究中具有重要意义，也在临床实践中为癌症的早期检测提供了技术支持。通过训练和验证模型，研究人员能够评估模型在区分肿瘤组织和正常组织方面的准确性，从而为病理学家提供辅助诊断工具。

实际应用

在实际应用中，PatchCamelyon (PCam) 数据集为病理学诊断提供了强有力的支持。通过训练出的高精度模型，临床医生可以快速且准确地识别病理切片中的癌细胞，从而加速诊断过程并提高诊断的准确性。此外，该数据集的应用还扩展到了远程医疗和自动化病理分析系统中，使得偏远地区的医疗机构也能享受到先进的癌症检测技术，极大地提升了医疗服务的可及性和效率。

衍生相关工作

基于PatchCamelyon (PCam) 数据集，衍生出了多项经典工作。例如，研究者们通过该数据集开发了多种先进的卷积神经网络架构，这些架构在其他医学图像分析任务中也表现出色。此外，数据集的使用还促进了数据增强技术和迁移学习方法的发展，这些方法在多个领域得到了广泛应用。同时，该数据集也为病理学领域的自动化和智能化研究提供了坚实的基础，推动了相关技术的快速发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集