CytoNuke
收藏arXiv2024-02-05 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.10560728
下载链接
链接失效反馈官方服务:
资源简介:
CytoNuke数据集是由亚琛工业大学医学院创建,专注于头颈部鳞状细胞癌的细胞分割。该数据集包含3991个肿瘤细胞核和2607个肿瘤细胞的手动标注,适用于全细胞分割研究。数据集通过公开的CPTAC数据集的图像进行手动标注,并经过质量控制。CytoNuke旨在解决现有分割方法在明场组织学图像中全细胞分割的不足,特别是在核和细胞质分割上的局限性。
CytoNuke is a dataset developed by the School of Medicine, RWTH Aachen University, focusing on cell segmentation of head and neck squamous cell carcinoma (HNSCC). It contains 3,991 manually annotated tumor cell nuclei and 2,607 manually annotated tumor cells, which is suitable for whole-cell segmentation research. The dataset is manually annotated using images from the publicly available CPTAC dataset and has undergone quality control. CytoNuke aims to address the limitations of existing segmentation methods in whole-cell segmentation of bright-field histological images, particularly regarding the segmentation of cell nuclei and cytoplasm.
提供机构:
亚琛工业大学医学院
创建时间:
2024-01-28
搜集汇总
数据集介绍

构建方式
在数字病理学领域,细胞分割是提取形态学信息的关键步骤,然而现有数据集多局限于细胞核标注。CytoNuke数据集的构建旨在填补这一空白,专注于头颈鳞状细胞癌的苏木精-伊红染色图像。该数据集源自公开的CPTAC数据,通过专业人员在QuPath软件中手动标注细胞核与细胞质边界,并由资深病理学家审核确认。为确保标注质量,采用多级审核机制,最终生成COCO兼容的JSON格式标注文件。图像经Macenko算法标准化以消除染色差异,并分割为256×256像素的图块,按患者划分训练、验证与测试集,避免数据泄露。
特点
CytoNuke数据集的核心特点在于其专注于全细胞分割,包含3,991个肿瘤细胞核与2,607个完整细胞的手动标注,是目前首个公开提供HE染色图像中细胞质标注的数据集。其标注经过严格质量控制,覆盖头颈鳞状细胞癌这一形态异质性显著的肿瘤类型,细胞膜在HE染色中相对清晰,为算法开发提供了挑战性基准。数据集的标注遵循实际可见性原则,当细胞边界不可辨时仅标注细胞核,确保了标注的可靠性。图像经过标准化处理,减少了不同设施染色差异带来的偏差,提升了深度学习模型的训练稳定性。
使用方法
CytoNuke数据集主要用于开发和评估全细胞分割算法,尤其适用于苏木精-伊红染色组织学图像。研究人员可下载该数据集,利用其标注训练深度学习模型,如Mask R-CNN变体或U-Net架构,以同时分割细胞核和细胞质。在评估阶段,可采用平均精度指标(如AP50、AP75)衡量分割准确性,并通过QuPath等工具提取形态学与染色相关特征,与金标准标注进行统计比较。该数据集支持细胞形态定量分析,有助于探索细胞形态与临床观察之间的关联,为数字病理学工作流程的优化提供数据基础。
背景与挑战
背景概述
在数字病理学与人工智能深度融合的背景下,细胞形态的精确量化成为连接组织学图像与临床观察的关键桥梁。CytoNuke数据集由德国亚琛工业大学医院等机构的研究团队于2024年创建,旨在解决苏木精-伊红染色明场组织切片中全细胞分割的空白。该数据集聚焦头颈部鳞状细胞癌细胞,包含数千个手动标注的细胞核与细胞质区域,为核心研究问题——实现细胞质与细胞核的协同分割——提供了高质量基准。其出现填补了现有公开数据集中细胞质标注的缺失,为病理图像分析的可解释性研究奠定了数据基础,有望推动细胞形态特征与临床预后关联性探索的深入发展。
当前挑战
CytoNuke数据集所应对的领域挑战在于明场组织图像中细胞质分割的固有困难:细胞膜边界因染色对比度低而时常模糊不清,且细胞形态具有高度异质性,传统基于细胞核扩张的启发式方法难以准确捕捉细胞质的真实轮廓。在构建过程中,研究团队面临标注一致性的挑战:细胞质可见性受染色质量影响,部分细胞仅能标注细胞核;同时需通过多级审核与病理学家验证来保障标注精度。此外,数据源自多中心的全切片图像,染色强度存在差异,需采用标准化算法进行预处理以消除批次效应,确保深度学习模型训练的稳定性与泛化能力。
常用场景
经典使用场景
在数字病理学领域,细胞形态学分析是理解肿瘤微环境与临床预后关联的核心环节。CytoNuke数据集作为首个公开提供头颈部鳞状细胞癌(HNSCC)在HE染色亮场图像中细胞质与细胞核双重标注的资源,其经典应用场景聚焦于训练与验证全细胞分割算法。通过提供数千个手动标注的肿瘤细胞实例,该数据集使研究人员能够开发如Cyto R-CNN等先进模型,精准分割细胞质与细胞核,从而克服传统方法仅局限于细胞核分割的瓶颈,为细胞级形态特征提取奠定坚实基础。
实际应用
在临床病理工作流程中,CytoNuke数据集的实际应用体现在推动自动化细胞分析工具的优化与部署。基于该数据集训练的模型可集成至数字病理平台,辅助病理学家对头颈部鳞状细胞癌等实体瘤进行高效、客观的细胞计数与形态评估。例如,在肿瘤微环境研究中,准确的全细胞分割有助于量化免疫细胞浸润程度或肿瘤细胞异质性,为个性化治疗策略提供依据。此外,该数据集支持开发可解释性AI工具,通过细胞级特征解释神经网络对肿瘤恶性程度的预测,增强临床决策的透明度与可信度。
衍生相关工作
CytoNuke数据集的发布催生了一系列围绕全细胞分割的衍生研究。其直接关联的经典工作包括Cyto R-CNN架构的提出,该模型基于Mask R-CNN改进,通过双分支设计同步预测细胞核与细胞质掩码,在AP50与AP75指标上超越StarDist、Cellpose等现有方法。此外,数据集启发了对Transformer等新兴架构在细胞分割中应用的探索,如TransNuSeg等研究尝试将自注意力机制引入细胞实例分割。这些工作共同推动了细胞分割领域从核中心向全细胞分析的范式转变,并为多癌种、多染色场景的泛化研究提供了基准与灵感。
以上内容由遇见数据集搜集并总结生成



