CytoCrowd
收藏arXiv2026-02-06 更新2026-02-10 收录
下载链接:
https://doi.org/10.1145/3774904.3792891
下载链接
链接失效反馈官方服务:
资源简介:
CytoCrowd是由香港科技大学·广州与广州LBP医学科技联合开发的细胞学图像分析基准数据集,包含446张高分辨率病理切片图像。该数据集独特之处在于同时提供四位病理专家的14,579条原始争议标注和资深专家核验的6,402条金标准标注,数据来源于40倍显微镜扫描的.svs格式切片。通过七个月的专业标注流程,数据集完整保留了临床诊断中存在的边界划分、类别判定等真实分歧现象,主要应用于医学计算机视觉模型训练和标注聚合算法开发,旨在解决复杂医学图像分析中的专家意见分歧建模问题。
CytoCrowd is a benchmark dataset for cytological image analysis jointly developed by The Hong Kong University of Science and Technology (Guangzhou) and Guangzhou LBP Medical Technology, which contains 446 high-resolution pathological slide images. What distinguishes this dataset is that it provides 14,579 original controversial annotations from four pathologists and 6,402 gold-standard annotations verified by senior experts. The data are sourced from .svs format slides scanned at 40× magnification. After a seven-month professional annotation process, the dataset fully preserves real disagreements existing in clinical diagnosis such as boundary delineation and category determination. It is mainly applied to the training of medical computer vision models and the development of annotation aggregation algorithms, aiming to address the problem of modeling expert opinion disagreements in complex medical image analysis.
提供机构:
中山大学; 香港科技大学·广州
创建时间:
2026-02-06
搜集汇总
数据集介绍

构建方式
在细胞病理学图像分析领域,高质量标注数据的获取面临专家间意见分歧的固有挑战。CytoCrowd数据集的构建旨在弥合这一鸿沟,其过程体现了严谨的协作设计。该数据集包含446张高分辨率细胞学图像,由四位具备十年以上临床经验的独立病理学家分别进行标注,共产生14,579个原始标注,真实记录了专家在细胞边界、类别及存在性上的分歧。随后,一位资历超过十五年的高级病理学家对所有原始标注进行系统性审阅、整合与校正,最终确立了一个包含6,402个对象的独立金标准真值,为客观评估提供了可靠依据。
特点
CytoCrowd数据集的核心特征在于其独特的双重结构,这使其在医学图像分析领域脱颖而出。数据集不仅提供了四位专家独立的原始标注,完整保留了临床实践中真实的观察者间差异性,例如仅有约11.37%的细胞被所有专家共同识别,凸显了标注任务的内在模糊性。同时,它包含一个由资深专家独立验证生成的金标准真值,该真值与原始标注分离,避免了以共识作为真值可能带来的评估偏差。这种设计使得数据集能够同时服务于计算机视觉模型的性能评测与标注聚合算法的开发验证,为研究模型在不确定性环境下的鲁棒性提供了宝贵资源。
使用方法
该数据集主要支持两大研究任务的应用。对于医学计算机视觉研究,研究者可直接使用金标准真值进行模型训练与测试,执行标准的细胞对象检测与分类任务,评估模型在复杂细胞图像上的定位与识别精度。对于众包与真值推断研究,数据集提供的四位专家的原始冲突性标注可作为算法输入,用于开发和评估标注聚合算法,旨在从多份分歧意见中合成一个接近金标准的高质量结果。两种任务均可基于数据集提供的基线性能进行比较分析,其评估指标侧重于在正确定位对象基础上的分类准确率,确保了评测的清晰与公平。
背景与挑战
背景概述
在医学图像分析领域,高质量标注数据集是推动机器学习模型发展的基石。然而,现有数据集往往难以捕捉临床实践中专家意见分歧的现实复杂性。为此,中山大学与香港科技大学(广州)的研究团队于2026年推出了CytoCrowd数据集,旨在填补这一空白。该数据集聚焦于细胞学图像分析,核心研究问题在于如何同时提供原始的多专家冲突标注与独立的高质量金标准真值,以支持计算机视觉模型训练与标注聚合算法的客观评估。CytoCrowd包含446张高分辨率细胞学图像,每张图像均包含四位独立病理学家的原始标注及一位资深专家审定的金标准,其独特结构为医学图像分析领域引入了新的研究范式,促进了模型在不确定性处理与专家共识融合方面的进展。
当前挑战
CytoCrowd数据集所解决的领域问题在于细胞学图像中目标检测与分类的复杂性,以及多专家标注聚合的挑战。细胞学图像中细胞重叠、形态细微差异显著,导致即使专家之间在目标边界、类别乃至存在性上也存在广泛分歧,这使得模型开发需兼顾标注噪声与临床不确定性。在构建过程中,数据集面临双重挑战:一是采集与协调四位独立病理学家的原始标注,需确保标注过程的独立性以真实反映专家间变异,同时处理高达14,579个原始标注与6,402个金标准对象之间的巨大差异;二是建立可靠的金标准真值,依赖资深专家逐一审核数以万计的标注,此过程耗时且需极高专业一致性,以克服共识标注可能引入的偏差,为算法评估提供权威基准。
常用场景
经典使用场景
在细胞病理学图像分析领域,CytoCrowd数据集被广泛用于评估和比较目标检测与分类模型的性能。该数据集提供了由资深病理学家审定的高质量金标准标注,为研究者提供了一个清晰且可靠的基准。通过利用这些金标准标注,研究人员能够训练和测试深度学习模型,以精确识别细胞图像中各类病变细胞的位置与类别,从而推动自动化诊断工具的发展。
实际应用
在实际医疗场景中,CytoCrowd数据集可助力开发智能辅助诊断系统,帮助病理医生高效处理海量细胞涂片。通过利用数据集中捕捉的专家分歧模式,系统能够模拟多专家会诊流程,提升诊断的稳健性与可靠性。此外,该数据集还能用于培训医学生,使其了解细胞病理学中常见的诊断模糊区域,增强临床决策能力。
衍生相关工作
基于CytoCrowd数据集,研究者已开展多项经典工作。在标注聚合方向,多数投票、Dawid & Skene等传统方法被重新评估,揭示了在专家标注场景下简单策略的有效性。在计算机视觉领域,DeepEdit、Anytime等交互式分割模型在该数据集上表现出色,推动了针对医学图像细粒度分析的专业模型发展,同时暴露了通用视觉大模型在专业医疗任务上的局限性。
以上内容由遇见数据集搜集并总结生成



