five

CCMCT数据集

收藏
arXiv2021-01-05 更新2024-06-21 收录
下载链接:
https://github.com/DeepPathology/CCMCT
下载链接
链接失效反馈
官方服务:
资源简介:
CCMCT数据集是由自由大学柏林兽医病理学研究所创建的,专注于犬皮肤肥大细胞瘤中双核和多核肿瘤细胞的研究。该数据集包含32张全切片图像,共有21,399条标注,其中19,983条为双核细胞(BiNC),1,416条为多核细胞(MuNC)。数据集的创建过程结合了病理学家的手动标注和算法辅助的标注方法,确保了标注的准确性。该数据集主要用于开发自动图像分析技术,以促进肿瘤预后评估的标准化,特别是在评估细胞核数量与肿瘤行为之间的关系方面具有重要价值。

The CCMCT dataset was created by the Institute of Veterinary Pathology, Free University of Berlin, focusing on the study of binucleated and multinucleated tumor cells in canine cutaneous mast cell tumors. This dataset contains 32 whole-slide images, with a total of 21,399 annotations, among which 19,983 are binucleated cells (BiNC) and 1,416 are multinucleated cells (MuNC). The dataset was developed through a combination of manual annotation by pathologists and algorithm-assisted annotation methods, ensuring the accuracy of the annotations. This dataset is primarily utilized for developing automated image analysis technologies to promote the standardization of tumor prognosis assessment, and holds significant value particularly in evaluating the relationship between the number of cell nuclei and tumor behavior.
提供机构:
自由大学柏林兽医病理学研究所
创建时间:
2021-01-05
搜集汇总
数据集介绍
main_image_url
构建方式
在犬皮肤肥大细胞瘤的组织病理学研究中,双核与多核肿瘤细胞的存在是评估肿瘤恶性程度的重要指标。CCMCT数据集基于32张公开的全切片组织图像构建,这些图像的分辨率为每像素0.25微米。数据集的标注过程结合了病理学家的手动筛选与算法辅助标注策略:首先由一位病理学家使用SlideRunner软件标记出10,381个双核细胞和775个多核细胞;随后,利用深度学习模型以低检测阈值生成大量候选区域,并由专家逐一审查,最终补充了9,602个双核细胞和641个多核细胞。这一迭代式标注方法显著提升了数据集的完整性,最终包含19,983个双核细胞和1,416个多核细胞的精确坐标信息。
特点
该数据集的核心特点在于其开创性与高标注质量。作为首个针对犬皮肤肥大细胞瘤中双核及多核肿瘤细胞的开源数据集,它提供了覆盖完整组织切片的详尽标注,避免了传统仅关注局部区域的局限性。数据集的构建采用算法增强的标注流程,通过低阈值候选生成与专家复核相结合,有效降低了人工遗漏风险,同时保留了难负样本以提升模型鲁棒性。此外,数据集中双核细胞与多核细胞的密度与有丝分裂计数之间存在显著正相关性(相关系数分别为0.42和0.29),揭示了多倍体形成的内在机制,为肿瘤生物学研究提供了重要线索。
使用方法
该数据集以SQLite3数据库格式存储,通过GitHub平台开放获取,用户可便捷地提取每个标注的中心坐标(x,y)及对应的全切片图像。使用方法灵活多样:研究者可直接利用标注数据训练深度学习目标检测模型,例如基于RetinaNet与ResNet-18的两阶段架构,已在测试集上对双核细胞和多核细胞分别达到0.675和0.623的F1分数。亦可提取2.37平方毫米的兴趣区域,模拟病理学家的临床评估场景,用于算法与专家性能的对比分析。数据集还支持多专家共识标签的生成,适用于评估标注一致性及模型泛化能力。
背景与挑战
背景概述
在肿瘤病理学领域,细胞多核化现象(包括双核细胞与多核细胞)被视为基因组不稳定性与肿瘤演进的重要标志。犬皮肤肥大细胞瘤(ccMCT)作为犬类最常见的皮肤肿瘤之一,其组织学分级方案中已将多核细胞计数纳入预后评估体系,而双核细胞在细胞学标本中的负面预后价值亦被证实。然而,由于该类细胞在组织切片中形态隐匿、分布稀疏,人工判读存在显著的主观性与可重复性不足。2021年,由柏林自由大学兽医学院Christof A. Bertram团队联合多国研究机构创建的CCMCT数据集,首次公开发布了涵盖32张全切片图像、共计19,983个双核细胞与1,416个多核细胞标注的开放资源。该数据集通过病理学家手动标注与算法辅助标注相结合的创新策略,显著提升了标注完整度,并基于RetinaNet与ResNet-18架构建立了深度学习基线模型,在测试集上取得了双核细胞F1分数0.675、多核细胞F1分数0.623的检测性能,为推进该病理特征的自动化定量分析提供了关键数据支撑。
当前挑战
该数据集所应对的核心挑战在于双核与多核肿瘤细胞检测任务中存在的多重难点。首先,从领域问题层面,双核细胞与多核细胞作为ccMCT分级方案中的关键参数,其准确识别直接关系到预后判断的可靠性,但病理学家间的判读一致性极低(双核细胞F1分数范围为0.270-0.526,多核细胞为0.316-0.622),亟需标准化工具提升可重复性。其次,在数据集构建过程中,面临三大技术挑战:一是细胞边界模糊导致与相邻细胞难以区分,且双核细胞常因形态不显著而被遗漏;二是需区分形态相似的非目标结构(如核分叶或核凹陷的假阳性对象);三是多核细胞在多数病例中极为稀疏,导致正样本数量严重不足(仅1,416个),对深度学习模型的训练构成显著制约。此外,算法辅助标注虽能提升召回率,但可能引入对模型易检测对象的偏好偏差,需通过低阈值筛选与专家复核加以平衡。
常用场景
经典使用场景
在兽医病理学与计算病理学交叉领域,CCMCT数据集为双核及多核肿瘤细胞的自动检测与量化提供了珍贵的标注资源。该数据集包含32张犬皮肤肥大细胞瘤全切片图像中的19,983个双核细胞与1,416个多核细胞注释,采用病理学家初标与算法辅助筛选相结合的高效标注策略。其经典使用场景聚焦于基于深度学习的细胞核分裂象检测模型训练与验证,研究者可借助该数据集开发高精度目标检测算法,如基于RetinaNet与ResNet-18级联架构的流水线,以在组织学全切片图像中自动定位并计数这些具有预后意义的异常细胞。
实际应用
在临床兽医诊断实践中,该数据集驱动的自动化分析工具可直接嵌入数字病理学工作流,辅助病理学家对犬皮肤肥大细胞瘤进行客观、可重复的预后分级。通过在全切片图像上自动计算单位面积内的双核与多核细胞密度,模型能够高效筛选高风险病例,减少人工筛查时间并降低漏诊风险。此外,该数据集揭示的双核细胞与有丝分裂计数的正相关性(r=0.42),提示其有望成为新型组织学预后参数,推动临床分级方案的优化升级,进而提升肿瘤诊疗的精准化水平。
衍生相关工作
CCMCT数据集的发布催生了多项开创性衍生研究。在方法论层面,其采用的算法辅助标注策略(即低阈值预检测加专家复核)被后续工作借鉴,用于其他稀有细胞类型的数据集构建,显著提升了标注完整性与效率。在模型层面,基于该数据集训练的检测框架成为有丝分裂图检测任务(如先前Bertram等人构建的大规模有丝分裂数据集)的基准对比对象,促进了跨任务迁移学习与多任务联合建模的探索。此外,该工作直接引发了关于双核细胞作为犬肥大细胞瘤独立预后因子的临床验证研究,拓展了组织学评分体系的生物学基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作