Dataset of segmented nuclei in Hematoxylin and Eosin stained histopathology images of 10 cancer types

Name: Dataset of segmented nuclei in Hematoxylin and Eosin stained histopathology images of 10 cancer types
Creator: 石溪大学
Published: 2020-12-01 04:07:00
License: 暂无描述

arXiv2020-12-01 更新2024-06-21 收录

下载链接：

https://doi.org/10.7937/tcia.2019.4a4dkp9u

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由石溪大学生物医学信息学部门开发，专注于10种癌症类型的组织病理学图像中的核分割。数据集包含约50亿个经过质量控制的核，来源于超过5060个TCGA全切片图像。创建过程中采用了先进的分析管道和多级质量控制流程，确保分割结果的准确性。该数据集主要用于癌症诊断和研究，特别是在核形态学的分析上，为精准医疗提供了重要的数据支持。

This dataset was developed by the Department of Biomedical Informatics at Stony Brook University, with a focus on nuclear segmentation in histopathological images across 10 cancer types. It encompasses approximately 5 billion quality-controlled nuclei, derived from more than 5,060 TCGA whole-slide images. An advanced analytical pipeline and multi-level quality control procedures were employed throughout the development process to ensure the accuracy of the segmentation results. Primarily intended for cancer diagnosis and research, particularly in the analysis of nuclear morphology, this dataset provides critical data support for precision medicine.

提供机构：

石溪大学

创建时间：

2020-02-19

搜集汇总

数据集介绍

构建方式

在数字病理学领域，细胞核的形态与分布是癌症诊断与研究的核心标志物。为弥补大规模、高质量核分割数据的缺失，该数据集基于The Cancer Genome Atlas（TCGA）中10种癌症类型的5,060张全切片组织图像构建。研究团队采用了一种鲁棒的核分割卷积神经网络，通过结合三种真实训练数据集与50万张合成图像补丁进行模型训练，该网络具备双输出头——分别用于核中心检测与核物质分割，并最终利用分水岭算法实现实例级分割。为确保数据质量，团队实施了多层次质量控制流程，包括全切片级别的随机区域检查与视觉评估，以及基于1,356张手动分割图像补丁的定量验证，最终筛选出约50亿个高质量分割核。

特点

该数据集的核心特点在于其前所未有的规模与跨癌种覆盖度，涵盖膀胱尿路上皮癌、乳腺浸润癌、肺腺癌等10种癌症类型，总计约50亿个分割核。相较于现有小规模数据集，该数据通过合成训练数据策略显著提升了模型在未见癌种上的泛化能力。质量控制体系是其另一亮点，依据分割质量将全切片分为最佳、良好、合格、问题及不可接受五个等级，并提供了详细的量化评估指标，如Dice系数平均不低于77%、实例级Dice系数不低于62%，与人工标注者间的一致性水平相当。此外，数据集中还包含1,356张手动校正的256×256像素图像补丁，为后续验证提供基准。

使用方法

该数据集以CSV文件形式存储每个分割核的多边形坐标，按癌种分类存放于对应文件夹（如BLCA_polygon），同时提供包含元数据与质量控制结果的CSV文件，用户可据此筛选不同质量等级的切片。原始全切片图像需从TCGA公共仓库下载，下载流程包括访问GDC门户、选择诊断切片并添加到购物车。研究人员可直接加载多边形坐标用于特征提取、模型训练或验证。数据集采用CC0协议无版权限制，但需注意分割结果以4,000×4,000像素图块存储，边缘图块可能因尺寸不足而遗漏核，且跨图块的核被拆分，这些设计因素应在分析中予以考虑。

背景与挑战

背景概述

细胞核的形态学特征在癌症诊断与研究中具有核心地位，然而现有的大规模核分割数据集在规模与准确性上存在显著不足。为弥补这一空白，来自石溪大学的研究团队（Le Hou、Joel H. Saltz等）于2020年在《Scientific Data》上发布了涵盖10种癌症类型的苏木精-伊红染色组织病理学图像核分割数据集。该数据集基于癌症基因组图谱（TCGA）的5,060张全切片图像，通过结合合成训练数据与U-net网络实现了高效分割，并经过多层次质量控制（包括WSI级与图像块级评估）验证。数据包含约50亿个质量控制后的细胞核，以及1,356个手动分割的图像块，为癌症病理学分析提供了大规模、可靠的基准资源，显著推动了精准医学中核形态学特征提取的研究。

当前挑战

该数据集面临的核心挑战包括：1）领域问题挑战：细胞核在不同癌症类型、组织来源及染色条件下呈现极大异质性（如高细胞密度、核多形性、染色不均等），导致现有卷积神经网络在未见癌症类型上泛化能力不足，分割精度受限；2）构建过程挑战：对超过5,000张WSI进行视觉质量评估需耗费200小时以上人工，难以逐一核查；自动分割结果存在由设计缺陷导致的跨瓦片核分裂、边缘遗漏等问题；手动标注过程中，不同标注者间的一致性（Dice系数仅0.75–0.80）限制了基准数据的绝对精确性。此外，4种癌症类型因分割质量不达标而被剔除，进一步凸显了跨癌种泛化的技术瓶颈。

常用场景

经典使用场景

在计算病理学领域，苏木精-伊红（H&E）染色组织切片中的细胞核分割是肿瘤诊断与研究的基石。该数据集汇集了来自癌症基因组图谱（TCGA）中10种癌症类型的5,060张全切片图像，涵盖约50亿个经质量控制的细胞核分割结果，并附有1,356个手动标注的图像块。其经典使用场景在于为深度学习模型提供大规模、跨癌种的训练与验证基准，尤其适用于训练卷积神经网络（如U-net）以实现对多癌种全切片图像中细胞核的精准实例级分割，从而克服传统数据集规模小、癌种覆盖有限的局限。

衍生相关工作

该数据集衍生了一系列经典工作，推动了计算病理学领域的边界拓展。其核心方法论——结合生成对抗网络（GAN）合成训练数据与U-net分割架构——被后续研究广泛借鉴，例如在PanNuke数据集扩展中用于半自动标注，以及在MICCAI细胞核分割挑战赛中作为性能比较的黄金标准。此外，基于该数据的研究催生了多种跨癌种泛化性改进模型，如引入注意力机制或对比学习的框架。数据集的公开还激发了关于分割质量控制的系统性研究，包括自动评估指标（如Instance-Dice）的完善，为大规模病理图像分析的可信度提供了方法论基础。

数据集最近研究