Cervix93 Cytology Dataset|医学图像分析数据集|宫颈癌筛查数据集

github2024-03-17 更新2024-05-31 收录

医学图像分析

宫颈癌筛查

下载链接：

https://github.com/parham-ap/cytology_dataset

下载链接

链接失效反馈

资源简介：

该数据集包含93个图像堆栈及其对应的扩展景深（EDF）图像，这些图像来自按照The Bethesda System分类的Negative、LSIL或HSIL病例。数据集分为训练集和测试集，详细记录了每个分类的图像数量和手动标记的细胞核点数。

This dataset comprises 93 image stacks along with their corresponding Extended Depth of Field (EDF) images, derived from cases classified as Negative, LSIL, or HSIL according to The Bethesda System. The dataset is divided into training and testing sets, with detailed records of the number of images in each category and the manually annotated nuclear points.

创建时间：

2018-11-27

原始信息汇总

Cervix93 Cytology Dataset 概述

数据集描述

图像数量：包含93个图像堆栈及其对应的扩展景深（EDF）图像。
病例分类：根据The Bethesda System分为三类：
- 阴性（Negative）：16个
- 低级别鳞状上皮内病变（LSIL）：46个
- 高级别鳞状上皮内病变（HSIL）：31个

地面实况（Ground Truth）

标记点数量：总共2705个手动标记点，分布如下：
- 阴性：238个
- LSIL：1536个
- HSIL：931个

训练与测试集划分

训练集（Trainig）：
- 阴性：12帧，179个核
- LSIL：34帧，1125个核
- HSIL：23帧，679个核
测试集（Test）：
- 阴性：4帧，59个核
- LSIL：12帧，411个核
- HSIL：8帧，252个核

代码资源

包含检测评估脚本（MATLAB）、基线分割方法及测试脚本，用于评估基线分割方法在测试数据集上的表现。

AI搜集汇总

数据集介绍

构建方式

Cervix93 Cytology Dataset的构建基于93组宫颈细胞图像堆栈及其对应的扩展景深（EDF）图像，这些图像来源于不同级别的宫颈病变病例，包括阴性（Negative）、低度鳞状上皮内病变（LSIL）和高度鳞状上皮内病变（HSIL）。每帧图像均标注了病变等级，并在宫颈细胞内部手工标记了关键点，总计2705个标记点。数据集进一步划分为训练集和测试集，训练集包含12帧阴性、34帧LSIL和23帧HSIL图像，测试集则包含4帧阴性、12帧LSIL和8帧HSIL图像。

特点

该数据集的特点在于其高精度的标注和多样化的样本分布。每帧图像不仅标注了病变等级，还包含了宫颈细胞内部的手工标记点，为细胞核的定位和分割提供了精确的参考。数据集的样本分布涵盖了阴性、LSIL和HSIL三种病变等级，且训练集和测试集的划分合理，确保了模型训练和评估的全面性。此外，数据集还提供了基线分割方法和检测评估脚本，为研究者提供了便捷的工具支持。

使用方法

使用Cervix93 Cytology Dataset时，研究者可通过训练集进行模型训练，利用测试集评估模型性能。数据集提供的基线分割方法和检测评估脚本（MATLAB）可直接用于实验，帮助快速验证算法的有效性。此外，研究者可参考相关论文（https://arxiv.org/abs/1811.09651）深入了解数据集的构建方法和实验细节，从而优化模型设计和实验结果。

背景与挑战

背景概述

Cervix93 Cytology Dataset 是一个专注于宫颈细胞学分析的图像数据集，创建于2018年，由相关领域的研究团队公开发布。该数据集包含93组图像堆栈及其对应的扩展景深（EDF）图像，涵盖了阴性（Negative）、低度鳞状上皮内病变（LSIL）和高度鳞状上皮内病变（HSIL）三种病理分级。数据集的核心研究问题在于通过图像分析技术，实现对宫颈细胞病变的自动检测与分类，从而辅助临床诊断。该数据集的发布为宫颈癌早期筛查提供了重要的数据支持，推动了计算机视觉与医学影像分析领域的交叉研究。

当前挑战

Cervix93 Cytology Dataset 在解决宫颈细胞病变分类问题时面临多重挑战。首先，宫颈细胞图像的复杂性和多样性使得特征提取与分类任务极具难度，尤其是在区分LSIL和HSIL时，细微的形态学差异需要高精度的算法支持。其次，数据集的构建过程中，手动标记细胞核位置的工作量巨大，且需要专业病理学家的参与，以确保标注的准确性和一致性。此外，数据集中不同类别的样本分布不均衡，可能导致模型训练时的偏差问题，进一步增加了算法优化的复杂性。这些挑战不仅考验了数据集的构建质量，也对后续的算法设计与性能评估提出了更高的要求。

常用场景

经典使用场景

Cervix93 Cytology Dataset在宫颈细胞学研究中扮演着重要角色，特别是在宫颈癌早期筛查和诊断领域。该数据集通过提供93个图像堆栈及其对应的扩展景深图像，为研究人员提供了丰富的细胞学数据。这些数据涵盖了阴性、低度鳞状上皮内病变（LSIL）和高度鳞状上皮内病变（HSIL）三种不同级别的宫颈细胞样本，使得研究者能够深入分析不同病变阶段的细胞特征。

解决学术问题

该数据集有效解决了宫颈细胞学研究中样本不足和标注不精确的问题。通过提供2705个手动标记的细胞核点，数据集为细胞核检测和分割算法提供了精确的基准。这不仅提升了宫颈病变检测的准确性，还为开发自动化诊断工具提供了可靠的数据支持，推动了宫颈癌早期筛查技术的发展。

衍生相关工作

基于Cervix93 Cytology Dataset，研究者们开发了多种宫颈细胞图像分析算法和模型。例如，一些研究利用该数据集训练深度学习模型，实现了宫颈细胞病变的自动分类。此外，该数据集还促进了宫颈细胞核检测和分割算法的优化，为后续的宫颈癌筛查研究提供了重要的技术基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。域名使用 Alexa 流量排名进行排名是使用浏览行为的组合来确定的网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说，唯一身份访问者是在给定日期访问网站的唯一用户数，和 pageviews 是用户 URL 请求的总数网站。但是，对同一网站的多个请求在同一天被计为一次综合浏览量。网站独立访问者和综合浏览量的最高组合排名最高

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录