PanNuke

Hugging Face2025-01-03 更新2025-01-04 收录

下载链接：

https://huggingface.co/datasets/RationAI/PanNuke

下载链接

链接失效反馈

官方服务：

资源简介：

PanNuke是一个半自动生成的细胞核实例分割和分类数据集，包含19种不同组织类型的详尽细胞核标签。数据集总共有189,744个标记的细胞核，每个细胞核都有一个实例分割掩码。数据集分为三个折叠（fold1, fold2, fold3），每个折叠包含图像、实例、类别和组织类型四个特征。图像为RGB格式，实例为二进制格式的细胞核实例，类别为细胞核的类别标签，组织类型为样本来源的组织类型标签。

PanNuke is a semi-automatically generated dataset for nuclear instance segmentation and classification, featuring comprehensive nuclear annotations across 19 distinct tissue types. The dataset contains a total of 189,744 labeled nuclei, each paired with an instance segmentation mask. It is split into three folds (fold1, fold2, fold3), where each fold includes four feature categories: images, instances, category labels, and tissue type labels. The images are stored in RGB format, the instances are binary-format nuclear instance masks, the category labels denote the class of the corresponding nucleus, and the tissue type labels indicate the tissue origin of the source sample.

创建时间：

2024-12-27

搜集汇总

数据集介绍

构建方式

PanNuke数据集的构建基于半自动化的方法，旨在为细胞核实例分割与分类提供详尽的注释。该数据集从全切片图像（WSIs）中提取了7,901张256×256像素的图像，每张图像均以x40放大倍率和0.25 µm/像素的分辨率捕获。数据集的标注涵盖了19种组织类型和5种细胞类别，共标记了189,744个细胞核实例。由于从全切片图像中提取图像块，部分位于图像边缘的细胞核可能被裁剪，导致某些实例的可见像素少于10个。

使用方法

PanNuke数据集的使用方法主要围绕细胞核实例分割与分类任务展开。数据集被划分为三个折叠（fold1、fold2、fold3），每个折叠包含图像、实例分割掩码、细胞类别标签和组织类型标签。研究人员可以通过加载这些折叠数据，训练和评估实例分割模型。由于数据集的高度不平衡性，建议在训练过程中采用适当的采样策略或损失函数调整，以提高模型对少数类别的识别能力。此外，数据集还可用于研究跨组织类型的泛化能力，以及探索不同组织类型对细胞核形态的影响。

背景与挑战

背景概述

PanNuke数据集由Jevgenij Gamper等人于2019年创建，旨在为癌症病理学中的细胞核实例分割与分类提供高质量的数据支持。该数据集涵盖了19种组织类型和5种不同的细胞类别，共包含189,744个标注的细胞核实例，图像分辨率为0.25 µm/像素。PanNuke的创建基于全切片图像（WSIs）的提取，其核心研究问题在于解决病理学图像中细胞核的精确分割与分类问题，为癌症诊断和治疗提供了重要的数据基础。该数据集在医学图像分析领域具有广泛的影响力，特别是在癌症病理学研究中，已成为评估算法性能的重要基准之一。

当前挑战

PanNuke数据集在构建和应用过程中面临多重挑战。首先，数据集的高度不平衡性，尤其是‘Dead’细胞类别的样本数量显著不足，可能导致模型在分类任务中表现不佳。其次，由于图像是从全切片图像中提取的，部分细胞核位于图像边缘，导致其被裁剪，仅保留少量可见像素，这增加了实例分割的难度。此外，数据集的多类别和多组织类型特性要求模型具备较强的泛化能力，以应对不同组织背景下的细胞核识别与分类问题。这些挑战不仅影响了数据集的构建质量，也对后续的算法开发提出了更高的要求。

常用场景

经典使用场景

PanNuke数据集在医学图像分析领域具有广泛的应用，尤其是在细胞核实例分割和分类任务中表现突出。该数据集包含了来自19种不同组织类型的7,901张图像，涵盖了5种细胞类别，为研究人员提供了一个多样化的实验平台。通过使用这些高分辨率的图像，研究人员可以训练和验证深度学习模型，以精确地识别和分割细胞核，从而为癌症诊断和治疗提供有力支持。

解决学术问题

PanNuke数据集解决了医学图像分析中的多个关键问题，特别是在细胞核实例分割和分类方面。由于细胞核的形态和分布在不同组织类型中存在显著差异，传统的图像处理方法往往难以应对这种复杂性。PanNuke通过提供大量标注数据，帮助研究人员开发出更加精确的算法，从而提高了细胞核识别的准确性和鲁棒性。此外，该数据集还为研究细胞核在不同病理状态下的变化提供了宝贵的数据支持。

实际应用

在实际应用中，PanNuke数据集被广泛用于开发自动化病理诊断系统。通过利用该数据集训练深度学习模型，医疗机构可以实现对病理切片的快速分析，从而加速癌症的诊断过程。此外，该数据集还可用于研究不同组织类型中细胞核的分布和形态特征，为个性化医疗方案的制定提供科学依据。

数据集最近研究