five

1aurent/PatchCamelyon

收藏
Hugging Face2024-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/1aurent/PatchCamelyon
下载链接
链接失效反馈
官方服务:
资源简介:
PatchCamelyon (PCam) 数据集是一个用于图像分类的基准数据集,包含从淋巴结切片组织病理扫描中提取的327,680张彩色图像(96 x 96像素)。每张图像都标注了一个二元标签,指示是否存在转移组织。数据集分为训练集、验证集和测试集,分别包含262,144、32,768和32,768个样本。数据集的创建目的是为机器学习模型提供一个具有挑战性的基准,特别是在医学影像领域。数据集的设计使得模型可以在单个GPU上训练,并在几小时内达到竞争性分数。

PatchCamelyon (PCam) is a benchmark dataset for image classification, which contains 327,680 96×96 color images extracted from histopathological scans of lymph node tissue sections. Each image is annotated with a binary label indicating the presence or absence of metastatic tissue. The dataset is split into training, validation and test sets, containing 262,144, 32,768 and 32,768 samples respectively. This dataset was developed to provide a challenging benchmark for machine learning models, particularly in the medical imaging domain. The dataset is designed such that models can be trained on a single GPU and achieve competitive performance within a few hours.
提供机构:
1aurent
原始信息汇总

PatchCamelyon (PCam) 数据集概述

数据集描述

PatchCamelyon (PCam) 是一个新的具有挑战性的图像分类数据集。它包含 327,680 张彩色图像(96 x 96 像素),这些图像是从淋巴结切片的组织病理学扫描中提取的。每个图像都带有二进制标签,指示是否存在转移性组织。PCam 为机器学习模型提供了一个新的基准:比 CIFAR10 大,比 ImageNet 小,可以在单个 GPU 上进行训练。

数据集详情

数据结构

  • 特征:

    • image: 图像数据,数据类型为 image
    • label: 标签数据,数据类型为 bool
  • 数据分割:

    • train: 训练集,包含 262,144 个样本,大小为 6,114,271,847 字节。
    • valid: 验证集,包含 32,768 个样本,大小为 768,518,807 字节。
    • test: 测试集,包含 32,768 个样本,大小为 750,794,905 字节。
  • 数据集大小:

    • 下载大小: 7,639,680,898 字节。
    • 数据集大小: 7,633,585,559 字节。

标签说明

一个正标签表示图像中心 32x32 像素区域包含至少一个肿瘤组织像素。图像外围区域的肿瘤组织不影响标签。

补丁选择

PCam 源自 Camelyon16 挑战赛,包含 400 张 H&E 染色的淋巴结切片全切片图像(WSIs)。这些切片在两个不同的中心使用 40 倍物镜获取和数字化(结果像素分辨率为 0.243 微米)。我们以 10 倍的比例进行欠采样以增加视野。

我们遵循 Camelyon16 挑战赛的训练/测试分割,并进一步保留 20% 的训练 WSIs 作为验证集。为了防止选择背景补丁,将切片转换为 HSV,模糊处理,并过滤掉最大像素饱和度低于 0.07 的补丁(这在训练集中验证不会丢弃肿瘤数据)。

补丁数据集通过迭代选择 WSI 并选择正或负补丁(概率为 p)进行采样。补丁根据随机硬负挖掘方案(使用小型 CNN)被拒绝,并调整 p 以保持接近 50/50 的平衡。

任务类别

  • 图像分类

标签

  • camelyon
  • biology
  • Histopathology
  • Histology
  • Digital Pathology

大小类别

  • 100K < n < 1M

许可证

  • cc0-1.0

相关 ID

  • paperswithcode_id: pcam
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PatchCamelyon是一个医学影像分类数据集,包含32.7万张淋巴结切片图像,用于检测转移组织,具有适合GPU快速训练的特点。该数据集为医学影像分析提供了标准化的基准测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作