PanNuke
收藏arXiv2025-09-30 收录
下载链接:
https://warwick.ac.uk/fac/cross_fac/tia/data/pannuke
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含7904张来自19种不同组织类型的数字化病理切片,每种切片可能有5种不同的标签。此外,该数据集覆盖了广泛多样的组织类型,其任务是进行多标签医学图像分类。
This dataset comprises 7904 digitized pathological slides originating from 19 distinct tissue types, with each slide potentially assigned 5 different labels. Furthermore, this dataset covers a wide range of diverse tissue types, and its core task is multi-label medical image classification.
搜集汇总
数据集介绍

构建方式
在计算病理学领域,PanNuke数据集的构建采用了半自动标注与临床质量控制相结合的创新方法。研究团队首先整合了多个公开的细胞核检测数据集,并训练了一个全卷积神经网络进行初步检测与分类。随后,从TCGA等来源的超过20,000张全切片图像中,随机采样了2,000个视觉场,以最大程度减少选择偏差并保留临床实践中常见的组织伪影。标注过程通过七轮迭代完成,每轮均由病理学家验证并重新标记检测到的细胞核,同时利用NuClick工具从单点生成精确的分割掩码,显著提升了标注效率与质量。最终,数据集包含了来自19种不同组织类型的481个视觉场,共计189,744个经过详尽标注的细胞核。
特点
PanNuke数据集的核心特点在于其前所未有的规模、多样性与临床真实性。作为目前最大的细胞核分割与分类数据集,它涵盖了19种不同的癌组织类型,包含近20万个细胞核,并划分为肿瘤性、非肿瘤性上皮、炎症性、结缔组织及死亡细胞五大临床重要类别。该数据集通过随机采样策略,有效模拟了‘临床野生’环境的数据分布,最大程度减少了选择偏差,并保留了组织处理或扫描过程中常见的伪影。其标注经过临床病理学家的严格质量控制,确保了标签的准确性与临床相关性,为开发能够应对真实世界复杂性的深度学习模型提供了坚实基础。
使用方法
PanNuke数据集为细胞核实例分割与分类任务提供了标准化的评估框架。研究者可利用其预先提取并随机划分为训练、验证和测试三折的图像块进行模型开发与公平比较。数据集支持多种评估指标,如用于分割性能评估的多类全景质量(mPQ)和二元全景质量(bPQ),以及用于检测任务的F1分数、精确率和召回率。基于该数据集训练的模型,例如HoVer-Net,已被证明能够有效推广到未包含在数据集中的组织类型(如脑组织),展示了其强大的泛化能力。此外,该数据集可作为预训练资源,辅助病理学家进行大规模全切片图像的半自动标注,或用于组织表型分析等下游计算病理学研究。
背景与挑战
背景概述
在计算病理学领域,全切片图像的广泛应用为深度学习算法提供了丰富的像素数据,但针对细胞核级别的分析任务仍面临临床数据多样性的严峻挑战。PanNuke数据集由华威大学等机构的研究团队于2020年发布,旨在构建一个涵盖19种组织类型、包含近20万个细胞核的大规模标注数据集,专注于细胞核实例分割与分类这一核心研究问题。该数据集通过半自动标注与病理学家质量控制,显著提升了数据分布的临床代表性,为多组织癌症分析提供了重要基准,推动了计算病理学模型从实验室向真实临床环境的过渡。
当前挑战
PanNuke数据集致力于解决细胞核实例分割与分类在多样化组织中的泛化性问题,其核心挑战在于模型对临床常见伪影(如组织灼伤、模糊等)的鲁棒性不足,以及区分形态相似的细胞核类别(如肿瘤性与非肿瘤性上皮细胞)的困难。在构建过程中,挑战主要体现在数据标注的复杂性:需整合多个公开数据集并重新标注以统一分类体系,同时通过迭代式半自动流程确保标注质量;此外,采样策略需平衡组织类型与临床代表性,并保留真实存在的伪影以模拟“临床野生”环境,这对标注效率与病理学专业知识提出了极高要求。
常用场景
经典使用场景
在计算病理学领域,PanNuke数据集为核实例分割与分类任务提供了标准化评估平台。该数据集涵盖了19种不同组织类型的近20万个经过病理学家质量控制的核标注,其规模与多样性模拟了真实临床环境中的复杂分布。研究者通常利用PanNuke训练深度神经网络模型,如HoVer-Net等架构,以实现在全切片图像中精确识别肿瘤细胞、上皮细胞、炎症细胞等五类关键核形态,为组织表型定量分析奠定基础。
解决学术问题
PanNuke有效解决了计算病理学中核级别标注数据稀缺且分布局限的学术难题。传统数据集往往局限于单一组织类型或少量样本,难以反映临床实践中组织异质性与常见伪影的复杂性。该数据集通过半自动标注流程与多中心数据整合,提供了跨组织泛化的标注标准,使模型能够克服选择偏差问题。其意义在于建立了首个大规模泛癌核分析基准,推动了面向真实临床场景的鲁棒性算法发展,为组织微环境定量研究提供了可复现的实验基础。
衍生相关工作
PanNuke的发布催生了多项核分析领域的经典研究工作。以该数据集为基础,HoVer-Net等模型通过水平垂直距离映射改进了密集核的分割精度;Micro-Net架构实现了多尺度核特征统一提取;NuClick工具则利用单点交互式标注提升了标注效率。这些工作进一步衍生出组织表型图谱构建、核空间网络分析等研究方向,例如Javed等人基于核分类结果构建细胞群落图谱以识别组织表型。相关方法已扩展至脑组织等未参与训练的组织类型,验证了模型的泛化能力。
以上内容由遇见数据集搜集并总结生成



