lapix/CCAgT
收藏Hugging Face2022-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lapix/CCAgT
下载链接
链接失效反馈官方服务:
资源简介:
CCAgT数据集包含9339张使用AgNOR染色技术处理的宫颈细胞图像,分辨率为1600x1200,每个像素代表0.111µmX0.111µm。这些图像来自15个不同的幻灯片,每个图像至少有一个标签,总共有超过63K个标注对象。数据集支持图像分割和对象检测任务,包括语义分割和实例分割。数据集的语言为英语,数据被随机分为训练集、测试集和验证集,分别占70%、15%和15%。数据集由专家生成,用于机器学习和癌症诊断研究。
The CCAgT dataset contains 9,339 cervical cell images processed with the AgNOR staining technique, with a resolution of 1600×1200, where each pixel corresponds to an area of 0.111 µm × 0.111 µm. These images are sourced from 15 distinct slides. Each image has at least one annotation, and there are over 63,000 annotated objects in total. This dataset supports image segmentation and object detection tasks, including semantic segmentation and instance segmentation. The annotation language of the dataset is English, and the data is randomly split into training, test, and validation sets, which account for 70%, 15%, and 15% of the total dataset respectively. The CCAgT dataset was created by domain experts for machine learning and cancer diagnosis research.
提供机构:
lapix
原始信息汇总
数据集概述
数据集名称
- 名称: Images of Cervical Cells with AgNOR Stain Technique
- 简称: CCAgT
数据集基本信息
- 语言: 英语
- 许可证: CC-BY-NC-3.0
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据类型: 原始数据
任务类型
- 图像分割: 语义分割和实例分割
- 对象检测: 检测细胞核和核仁组织区(NORs)
数据集结构
- 数据实例: 包含图像和相应的标注(如语义分割、对象检测和实例分割的标注)
- 数据字段: 包括图像、标注(如边界框、类别标签)等
- 数据分割: 随机分为训练、测试和验证集,其中训练集占70%,测试和验证集各占15%
数据集创建
- 采集理由: 用于机器学习识别细胞核和核仁组织区(NORs)
- 源数据: 来自15名女性患者的宫颈样本,使用AgNOR染色技术
- 标注过程: 使用labelbox工具进行标注,由临床分析部门和图像处理与计算机图形实验室(LAPiX)的成员完成
使用数据注意事项
- 社会影响: 有助于推广AgNOR作为癌症诊断的支持方法
- 已知限制: 卫星类别的像素级表示因单点标注而不准确
附加信息
- 数据集收集者: 来自Universidade Federal de Santa Catarina (UFSC)的临床分析部门成员
- 许可证信息: 数据集文件根据CC-BY-NC-3.0许可证发布,允许非商业用途的使用和分发
- 引用信息: 提供了数据集的官方页面和相关论文的引用格式
搜集汇总
数据集介绍

构建方式
CCAgT数据集的构建基于宫颈细胞样本的AgNOR染色技术,旨在提供一个用于机器学习识别细胞核和核仁组织区(NORs)的高质量数据集。数据集的图像来源于巴西联邦大学圣卡塔琳娜分校附属医院的妇科和阴道镜门诊患者的宫颈样本,共计15张玻片,包含9339张图像。这些图像通过AgNOR技术染色,以突出显示核仁组织区。数据集的标注工作由临床分析部门和图像处理与计算机图形实验室的专家完成,使用Labelbox工具进行标注,并对标注结果进行了审查,确保了数据的高质量。
特点
CCAgT数据集的显著特点在于其高分辨率图像(1600x1200像素,每个像素对应0.111µm)和丰富的标注信息,涵盖了超过63,000个实例。数据集支持多种任务,包括语义分割、实例分割和目标检测,适用于不同层次的图像分析需求。此外,数据集的标注类别细致,包括细胞核、簇、卫星、失焦细胞核等多种类别,能够为研究者提供丰富的研究素材。
使用方法
CCAgT数据集可用于训练和评估图像分割、实例分割和目标检测模型。用户可以通过访问数据集的图像和标注文件,进行模型的训练和验证。数据集提供了详细的标注信息,包括语义分割的像素级标注和目标检测的边界框信息,用户可以根据需求选择不同的任务进行实验。数据集的划分包括训练集、测试集和验证集,用户可以根据这些划分进行模型的训练和评估,确保模型的泛化能力。
背景与挑战
背景概述
CCAgT(Images of Cervical Cells with AgNOR Stain Technique)数据集由巴西联邦大学圣卡塔琳娜分校(UFSC)的研究团队创建,旨在通过AgNOR染色技术对宫颈细胞图像进行语义分割和实例分割,以辅助癌症诊断。该数据集包含9339张高分辨率图像,每张图像均标注了至少一个对象,总计超过63,000个实例。这些图像来源于UFSC附属医院的妇科和结肠镜门诊患者,涵盖了多种宫颈病变类型。数据集的创建得到了伦理委员会的批准,并确保了患者隐私的保护。CCAgT数据集的发布为宫颈细胞病理学领域的自动化分析提供了宝贵的资源,推动了基于深度学习的细胞检测与分割技术的发展。
当前挑战
CCAgT数据集在构建过程中面临多项挑战。首先,图像中的对象(如细胞核和核仁组织区)尺寸较小,且存在重叠和模糊现象,这对语义分割和实例分割任务提出了较高的精度要求。其次,数据集的标注过程复杂,涉及多种细胞类型的多边形标注,尤其是卫星类别的单点标注在像素级表示上存在不准确性。此外,数据集的多样性和样本量有限,可能导致模型在处理不同病变类型时的泛化能力受限。这些挑战需要在模型训练和评估中加以解决,以确保数据集在实际应用中的有效性和可靠性。
常用场景
经典使用场景
CCAgT数据集的经典使用场景主要集中在宫颈细胞图像的语义分割和实例分割任务上。通过该数据集,研究者可以训练模型以识别和分类宫颈细胞样本中的核仁组织区(NORs),这对于宫颈癌的早期诊断具有重要意义。语义分割任务要求模型对图像中的每个像素进行分类,而实例分割则进一步要求模型在检测到的对象内部进行像素级别的分类,从而实现对细胞核和NORs的精确识别。
解决学术问题
CCAgT数据集解决了在宫颈细胞学领域中,如何通过图像分析技术自动识别和分类细胞核及核仁组织区(NORs)的学术问题。这一问题的解决不仅提高了宫颈癌早期诊断的准确性,还为病理学家提供了一种新的辅助诊断工具,减少了人为误差,推动了计算机辅助诊断(CAD)技术在医学影像分析中的应用。
衍生相关工作
基于CCAgT数据集,研究者们已经开展了一系列相关工作,包括开发新的深度学习模型用于宫颈细胞图像的语义分割和实例分割,以及探索如何利用这些模型进行宫颈癌的早期诊断。此外,该数据集还激发了关于如何改进图像分割算法以处理小目标对象的研究,推动了医学影像分析领域的技术进步。
以上内容由遇见数据集搜集并总结生成



