CERVIX93
收藏arXiv2018-11-24 更新2024-06-21 收录
下载链接:
https://github.com/parham-ap/cytology_dataset
下载链接
链接失效反馈官方服务:
资源简介:
CERVIX93数据集由南缅因大学和南佛罗里达大学共同创建,包含93个真实的宫颈细胞学图像堆栈,用于评估核检测和图像分类方法。数据集中的图像来自不同等级的ThinPrep细胞学幻灯片,共有2705个手动标记的核。创建过程中使用了SRC Biosciences的Stereologer系统进行图像采集和手动分级。该数据集主要用于评估和改进宫颈核分割和检测技术,以辅助宫颈癌的早期诊断和治疗。
The CERVIX93 dataset was jointly developed by the University of Southern Maine and the University of South Florida, comprising 93 stacks of real cervical cytology images for the evaluation of nuclear detection and image classification methodologies. The images within this dataset are derived from ThinPrep cytology slides of varying grades, and include a total of 2705 manually annotated nuclei. During the dataset construction, the Stereologer system from SRC Biosciences was employed for image acquisition and manual grading. This dataset is primarily utilized to evaluate and optimize cervical nuclear segmentation and detection technologies, thereby supporting early diagnosis and treatment of cervical cancer.
提供机构:
南缅因大学计算机科学系
创建时间:
2018-11-24
搜集汇总
数据集介绍

构建方式
在宫颈细胞学图像分析领域,构建高质量数据集对于推动自动化诊断技术至关重要。CERVIX93数据集的构建基于存档的ThinPrep巴氏染色玻片,这些玻片由Moffitt癌症中心提供,并依据Bethesda系统进行分级。通过集成硬件-软件显微镜系统,以系统随机方式采集图像,确保了数据的代表性和多样性。每个图像栈包含10至20幅等间距视野图像,从中生成扩展景深图像,并由专业细胞技师手动标注了2705个细胞核中心点,同时为每幅图像分配了阴性、低度或高度鳞状上皮内病变的等级标签。数据集的划分考虑了视觉难度,将约25%的帧纳入测试集,以支持模型评估。
特点
CERVIX93数据集在宫颈细胞学研究中展现出显著特点,其包含93幅真实扩展景深图像,覆盖三种病理等级,提供了丰富的形态变异性和临床相关性。数据集标注了2705个手动标记的细胞核点,数量远超先前公开数据集,增强了评估的统计稳健性。图像均来自实际玻片,避免了合成图像的局限性,真实反映了细胞重叠、低对比度等复杂场景,从而对细胞核检测算法提出了更高挑战。此外,数据集附带了基线方法和评估代码,便于研究者进行性能比较,推动了该领域方法的标准化发展。
使用方法
该数据集主要用于评估细胞核检测与图像分类方法的性能。研究者可利用提供的训练-测试划分,开发或验证分割与检测算法,通过比较精确率、召回率等指标来衡量模型效果。数据集包含MATLAB评估代码,支持输入坐标列表或分割掩码,自动计算真阳性、假阳性等统计量,并输出标准偏差。对于分类任务,图像等级标签可用于训练分类器,实现自动化病理分级。此外,基线方法作为参考基准,有助于新方法的快速迭代,而深度学习框架的引入则展示了进一步提升检测精度的潜力。
背景与挑战
背景概述
宫颈细胞学分析在检测和分级宫颈癌前病变及癌症阶段中扮演关键角色。2018年,南缅因大学与南佛罗里达大学的研究团队联合发布了CERVIX93数据集,旨在推动细胞学图像处理领域的发展。该数据集包含93张真实宫颈细胞学图像,涵盖阴性、低度鳞状上皮内病变和高度鳞状上皮内病变三种等级,并提供了2705个手动标注的细胞核位置。其核心研究问题聚焦于细胞核检测与图像分类,为自动化宫颈癌筛查提供了重要的评估基准,显著提升了相关算法的可比性与可靠性。
当前挑战
在细胞核检测领域,主要挑战在于处理细胞图像中的高度变异性和复杂性,例如细胞核重叠、低对比度区域以及边界模糊问题,这些因素直接影响检测精度。数据构建过程中,研究人员面临真实图像采集与标注的困难,包括细胞核部分可见或接触边界时的判定标准,以及确保数据代表性和多样性的平衡。此外,现有数据集的局限性,如标注数量不足和图像变异度低,促使CERVIX93设计为更具挑战性的基准,以推动算法在真实场景中的鲁棒性提升。
常用场景
经典使用场景
在宫颈细胞学图像分析领域,CERVIX93数据集常被用于评估细胞核检测与图像分类算法的性能。该数据集包含93张真实宫颈细胞学图像,涵盖阴性、低度鳞状上皮内病变和高度鳞状上皮内病变三种病理分级,并提供了2705个手动标注的细胞核坐标。研究者利用这些数据训练和测试深度学习模型,如卷积神经网络,以提升细胞核定位的精确度,为自动化宫颈癌筛查提供关键技术支持。
解决学术问题
CERVIX93数据集主要解决了宫颈细胞学图像中细胞核检测与分割的学术难题。传统方法在真实图像的高变异性和细胞重叠场景下表现不佳,该数据集通过提供大量标注样本,使研究者能够开发更鲁棒的算法,显著提升检测精度与召回率。其意义在于推动了计算机视觉与医学图像分析的交叉研究,为早期宫颈癌诊断的自动化奠定了数据基础,促进了相关领域的技术进步。
衍生相关工作
CERVIX93数据集催生了多项经典研究工作,例如基于自适应滤波与迭代阈值化的基线分割方法,以及采用卷积神经网络的深度学习检测框架。这些方法在公开评估中显著超越了早期ISBI挑战赛的算法,如Lu等人和Ushizima等人的方案。后续研究进一步探索了细胞质分割、多级联网络架构以及立体学参数提取,推动了宫颈细胞图像分析技术的持续演进。
以上内容由遇见数据集搜集并总结生成



