PanNuke
收藏arXiv2020-04-22 更新2024-06-21 收录
下载链接:
https://warwick.ac.uk/fac/sci/dcs/research/tia/data/pannuke
下载链接
链接失效反馈官方服务:
资源简介:
PanNuke数据集是由华威大学计算机科学系创建的一个大型且多样化的数据集,用于细胞核分割和分类。该数据集包含来自19种不同组织类型的近200,000个细胞核,这些细胞核经过半自动标注并由临床病理学家进行质量控制。PanNuke旨在模拟临床实际情况,减少选择偏差,并支持深度学习算法在计算病理学中的应用。数据集的应用领域包括癌症评分、生物标志物发现、癌症复发预测以及治疗效果预测,旨在解决现有数据集在多样性和临床相关性方面的不足。
The PanNuke dataset is a large-scale and diverse dataset created by the Department of Computer Science at the University of Warwick for nuclear segmentation and classification. It contains nearly 200,000 nuclei from 19 distinct tissue types, which were semi-automatically annotated and quality-controlled by clinical pathologists. PanNuke is designed to simulate real clinical scenarios, reduce selection bias, and support the application of deep learning algorithms in computational pathology. The application fields of this dataset include cancer scoring, biomarker discovery, cancer recurrence prediction and treatment effect prediction, aiming to address the shortcomings of existing datasets in terms of diversity and clinical relevance.
提供机构:
华威大学计算机科学系
创建时间:
2020-03-24
搜集汇总
数据集介绍

构建方式
在计算病理学领域,深度学习模型在癌症组织切片的全切片图像(WSI)的定量分析中展现出巨大的潜力。然而,现有的深度学习算法往往缺乏处理临床环境中真实数据的能力。PanNuke 数据集应运而生,它由近 20 万个细胞核组成,分为 5 个临床重要类别,旨在为全切片图像中细胞核的分割和分类任务提供挑战性的数据。PanNuke 数据集的构建方式包括两个主要步骤:数据标注和分割掩模生成。首先,研究者收集了公开可用的细胞核分类和检测数据集,训练了一个全卷积神经网络(FCNN)用于细胞核检测。然后,他们从超过 20,000 个全切片图像中随机采样了 2,000 个视野,并使用 FCNN 进行细胞核的检测和分类。这些检测结果经过临床病理学家的验证和重新标注,最终生成了一个包含 481 个视野和 189,744 个细胞核的数据集。为了生成分割掩模,研究者使用了 NuClick 方法,该方法能够从单个点生成精确的分割掩模,从而降低了分割掩模生成的成本并简化了验证过程。
特点
PanNuke 数据集具有以下特点:1)规模庞大且多样性高,包含 19 种不同类型的组织,具有与临床环境相似的数据分布和统计特性;2)分割掩模经过临床病理学家的验证,具有较高的准确性和可靠性;3)数据集的构建过程采用了半自动化的标注方法,并经过严格的质量控制,减少了数据偏差;4)数据集提供了详细的统计信息和研究方向,有助于推动计算病理学领域的研究进展。
使用方法
PanNuke 数据集的使用方法如下:1)研究人员可以使用该数据集训练和评估细胞核分割和分类模型,并与其他数据集进行比较;2)研究者可以利用 PanNuke 数据集开发新的深度学习模型,并将其应用于计算病理学领域的其他任务,例如癌症检测、组织分类和诊断相关结构的识别;3)PanNuke 数据集还可以用于辅助临床病理学家进行半自动化的标注工作,提高工作效率和准确性。
背景与挑战
背景概述
在计算病理学领域,深度学习模型在分析数字化全切片图像(WSIs)方面展现出巨大潜力,尤其在肿瘤组织图像中丰富的空间模式识别方面。然而,现有的公开数据集往往无法完全模拟临床环境中的真实数据分布,导致模型在应用于实际场景时可能出现性能下降。为了解决这个问题,Jevgenij Gamper 等研究人员创建了一个名为 PanNuke 的数据集,该数据集包含了来自 19 种不同组织类型的近 20 万个细胞核,并经过临床病理学家的半自动标注和质量控制。PanNuke 数据集的创建旨在为计算病理学提供一个更接近临床环境的数据集,以推动该领域深度学习模型的研究和应用。
当前挑战
尽管 PanNuke 数据集在规模和多样性方面取得了显著进展,但仍面临着一些挑战。首先,数据集的构建过程中需要克服的挑战包括如何保证标注的准确性和一致性,以及如何处理不同组织类型中细胞核大小的差异。其次,在应用深度学习模型时,如何有效地处理数据集中的类不平衡问题,以及如何避免模型对表面统计规律的过拟合,是计算病理学领域亟待解决的难题。此外,PanNuke 数据集的应用还面临着如何将模型推广到其他未包含在数据集中的组织类型,以及如何评估模型在实际临床环境中的性能等挑战。
常用场景
经典使用场景
在计算病理学领域,PanNuke数据集被广泛应用于细胞核分割和分类任务。该数据集包含了来自19种不同组织类型的近20万细胞核,并经过了临床病理学家的半自动标注和质量控制,使得数据集的统计特征与临床实际数据相似,并最大限度地减少了选择偏差。研究者可以利用PanNuke数据集训练深度学习模型,用于检测癌症、分类组织、识别诊断相关的结构,甚至推断基因亚型。
解决学术问题
PanNuke数据集解决了计算病理学领域缺乏大规模、高质量细胞核分割和分类数据集的问题。现有的数据集规模较小,且缺乏多样性,导致训练出的模型容易过拟合,难以应用于实际临床场景。PanNuke数据集的出现为计算病理学研究提供了可靠的数据基础,有助于推动该领域的发展。
衍生相关工作
PanNuke数据集的发布也促进了相关领域的研究。例如,基于PanNuke数据集,研究者开发了新的细胞核分割和分类模型,并在多个组织类型上取得了优异的性能。此外,PanNuke数据集还启发了对计算病理学中数据标注方法的研究,以及如何更好地利用深度学习技术解决实际临床问题。
以上内容由遇见数据集搜集并总结生成



