Cervix93 Cytology Dataset
收藏github2024-03-17 更新2024-05-31 收录
下载链接:
https://github.com/parham-ap/cytology_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含93个图像堆栈及其对应的扩展景深(EDF)图像,这些图像来自按照The Bethesda System分类的Negative、LSIL或HSIL病例。数据集分为训练集和测试集,详细记录了每个分类的图像数量和手动标记的细胞核点数。
This dataset comprises 93 image stacks along with their corresponding Extended Depth of Field (EDF) images, derived from cases classified as Negative, LSIL, or HSIL according to The Bethesda System. The dataset is divided into training and testing sets, with detailed records of the number of images in each category and the manually annotated nuclear points.
创建时间:
2018-11-27
原始信息汇总
Cervix93 Cytology Dataset 概述
数据集描述
- 图像数量:包含93个图像堆栈及其对应的扩展景深(EDF)图像。
- 病例分类:根据The Bethesda System分为三类:
- 阴性(Negative):16个
- 低级别鳞状上皮内病变(LSIL):46个
- 高级别鳞状上皮内病变(HSIL):31个
地面实况(Ground Truth)
- 标记点数量:总共2705个手动标记点,分布如下:
- 阴性:238个
- LSIL:1536个
- HSIL:931个
训练与测试集划分
- 训练集(Trainig):
- 阴性:12帧,179个核
- LSIL:34帧,1125个核
- HSIL:23帧,679个核
- 测试集(Test):
- 阴性:4帧,59个核
- LSIL:12帧,411个核
- HSIL:8帧,252个核
代码资源
- 包含检测评估脚本(MATLAB)、基线分割方法及测试脚本,用于评估基线分割方法在测试数据集上的表现。
搜集汇总
数据集介绍

构建方式
Cervix93 Cytology Dataset的构建基于93组宫颈细胞图像堆栈及其对应的扩展景深(EDF)图像,这些图像来源于不同级别的宫颈病变病例,包括阴性(Negative)、低度鳞状上皮内病变(LSIL)和高度鳞状上皮内病变(HSIL)。每帧图像均标注了病变等级,并在宫颈细胞内部手工标记了关键点,总计2705个标记点。数据集进一步划分为训练集和测试集,训练集包含12帧阴性、34帧LSIL和23帧HSIL图像,测试集则包含4帧阴性、12帧LSIL和8帧HSIL图像。
特点
该数据集的特点在于其高精度的标注和多样化的样本分布。每帧图像不仅标注了病变等级,还包含了宫颈细胞内部的手工标记点,为细胞核的定位和分割提供了精确的参考。数据集的样本分布涵盖了阴性、LSIL和HSIL三种病变等级,且训练集和测试集的划分合理,确保了模型训练和评估的全面性。此外,数据集还提供了基线分割方法和检测评估脚本,为研究者提供了便捷的工具支持。
使用方法
使用Cervix93 Cytology Dataset时,研究者可通过训练集进行模型训练,利用测试集评估模型性能。数据集提供的基线分割方法和检测评估脚本(MATLAB)可直接用于实验,帮助快速验证算法的有效性。此外,研究者可参考相关论文(https://arxiv.org/abs/1811.09651)深入了解数据集的构建方法和实验细节,从而优化模型设计和实验结果。
背景与挑战
背景概述
Cervix93 Cytology Dataset 是一个专注于宫颈细胞学分析的图像数据集,创建于2018年,由相关领域的研究团队公开发布。该数据集包含93组图像堆栈及其对应的扩展景深(EDF)图像,涵盖了阴性(Negative)、低度鳞状上皮内病变(LSIL)和高度鳞状上皮内病变(HSIL)三种病理分级。数据集的核心研究问题在于通过图像分析技术,实现对宫颈细胞病变的自动检测与分类,从而辅助临床诊断。该数据集的发布为宫颈癌早期筛查提供了重要的数据支持,推动了计算机视觉与医学影像分析领域的交叉研究。
当前挑战
Cervix93 Cytology Dataset 在解决宫颈细胞病变分类问题时面临多重挑战。首先,宫颈细胞图像的复杂性和多样性使得特征提取与分类任务极具难度,尤其是在区分LSIL和HSIL时,细微的形态学差异需要高精度的算法支持。其次,数据集的构建过程中,手动标记细胞核位置的工作量巨大,且需要专业病理学家的参与,以确保标注的准确性和一致性。此外,数据集中不同类别的样本分布不均衡,可能导致模型训练时的偏差问题,进一步增加了算法优化的复杂性。这些挑战不仅考验了数据集的构建质量,也对后续的算法设计与性能评估提出了更高的要求。
常用场景
经典使用场景
Cervix93 Cytology Dataset在宫颈细胞学研究中扮演着重要角色,特别是在宫颈癌早期筛查和诊断领域。该数据集通过提供93个图像堆栈及其对应的扩展景深图像,为研究人员提供了丰富的细胞学数据。这些数据涵盖了阴性、低度鳞状上皮内病变(LSIL)和高度鳞状上皮内病变(HSIL)三种不同级别的宫颈细胞样本,使得研究者能够深入分析不同病变阶段的细胞特征。
解决学术问题
该数据集有效解决了宫颈细胞学研究中样本不足和标注不精确的问题。通过提供2705个手动标记的细胞核点,数据集为细胞核检测和分割算法提供了精确的基准。这不仅提升了宫颈病变检测的准确性,还为开发自动化诊断工具提供了可靠的数据支持,推动了宫颈癌早期筛查技术的发展。
衍生相关工作
基于Cervix93 Cytology Dataset,研究者们开发了多种宫颈细胞图像分析算法和模型。例如,一些研究利用该数据集训练深度学习模型,实现了宫颈细胞病变的自动分类。此外,该数据集还促进了宫颈细胞核检测和分割算法的优化,为后续的宫颈癌筛查研究提供了重要的技术基础。
以上内容由遇见数据集搜集并总结生成



