GZMH Dataset
收藏arXiv2023-01-19 更新2024-06-21 收录
下载链接:
https://bit.ly/GZMH_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
GZMH Dataset是由中国赣州市人民医院提供的一个临床数据集,首次由桂林电子科技大学与赣州市人民医院合作发布。该数据集包含55个来自22名不同患者的全切片图像(WSI),通过数字切片扫描仪(KF-PRO120)以40倍放大和0.25um/像素的分辨率进行扫描。数据集的标注由具有超过5年工作经验的3名病理学家完成,并由2名资深病理学家复核,确保标注的准确性。该数据集主要用于评估自动检测模型在临床数据上的性能和泛化能力,特别是在乳腺癌的细胞有丝分裂检测方面。
GZMH Dataset is a clinical dataset provided by the People's Hospital of Ganzhou City, China, and was first jointly released by Guilin University of Electronic Science and Technology and the People's Hospital of Ganzhou City. This dataset contains 55 whole-slide images (WSIs) from 22 unique patients, scanned using a digital slide scanner (KF-PRO120) at 40× magnification and a resolution of 0.25 μm per pixel. The annotations of the dataset were completed by three pathologists with more than five years of work experience, and reviewed by two senior pathologists to ensure the accuracy of the annotations. This dataset is primarily used to evaluate the performance and generalization ability of automated detection models on clinical data, particularly for breast cancer cell mitosis detection.
提供机构:
桂林电子科技大学计算机科学与信息安全学院
创建时间:
2023-01-19
搜集汇总
数据集介绍

构建方式
GZMH数据集的构建方式主要涉及乳腺癌组织学图像的采集和标注。该数据集由江西省赣州市赣州市立医院的医生提供,包含来自22名不同患者的55张全切片扫描图像。图像使用数字切片扫描仪(KF-PRO120)以40倍的扫描比例和0.25um/像素的分辨率进行扫描。数据集的标注由3名拥有5年以上工作经验的病理医生初步完成,并由2名高级病理医生进行复核,以确保标注的准确性和可靠性。数据集被分为训练集和测试集,其中训练集包含来自20名患者的48张全切片扫描图像,测试集包含来自2名患者的7张全切片扫描图像。在预处理过程中,研究人员首先手动选择热点区域(即含有较多有丝分裂核的区域),然后将这些区域分割成2084x2084像素的高倍视野(HPF)。在检测网络的阶段,研究人员将每个HPF裁剪成224x224像素的图像块,以确保每个图像块中至少包含一个有丝分裂核。在分类网络的阶段,研究人员将检测网络的结果裁剪成64x64像素的图像块,以便进行更精细的分类。为了保证不同数据集预处理的一致性,研究人员对GZMH数据集和公开的ICPR 2012数据集进行了相同的预处理操作。
特点
GZMH数据集具有以下几个特点:首先,该数据集来源于临床数据,由病理医生进行标注和复核,保证了数据的真实性和准确性。其次,数据集包含不同患者的全切片扫描图像,覆盖了多种病理类型,有助于模型的泛化能力。第三,数据集标注为边界框坐标,相较于像素级标注,可以更有效地利用数据资源。最后,数据集的图像分辨率较高,有助于模型提取更精细的特征。
使用方法
GZMH数据集的使用方法主要包括以下步骤:首先,将数据集中的全切片扫描图像分割成HPF,并在检测网络的阶段将HPF裁剪成224x224像素的图像块。然后,将图像块输入到检测网络中进行有丝分裂核的检测,并将检测结果裁剪成64x64像素的图像块。接下来,将裁剪后的图像块输入到分类网络中进行分类,以筛选出真正的有丝分裂核。最后,将检测网络和分类网络的结果进行融合,得到最终的检测和分类结果。为了提高模型的性能,研究人员采用了多种改进方法,包括注意力机制、归一化技术、特征金字塔网络和混合锚分支分类子网等。
背景与挑战
背景概述
在计算病理学领域,有丝分裂检测一直是一个具有挑战性的问题,而有丝分裂计数是病理学家进行癌症分级的重要指标。GZMH数据集由桂林电子科技大学计算机科学与信息安全学院、广西图像与图形智能处理重点实验室和赣州市立医院的研究团队创建,旨在解决当前有丝分裂核计数依赖病理学家显微镜下观察的问题,该过程主观且耗时。该数据集首次发布于2012年,由王华登、徐浩、李冰冰、潘锡鹏、曾灵奇、蓝如石和罗晓南等研究人员共同完成。GZMH数据集的创建对计算病理学领域具有重要的影响,为研究人员提供了一个基于医院临床数据的真实场景数据集,有助于提高有丝分裂检测的准确性和可靠性。
当前挑战
GZMH数据集面临的主要挑战包括:1) 所解决的领域问题是有丝分裂核检测,这是一个复杂的任务,因为有丝分裂分为四个阶段(前期、中期、后期和末期),每个阶段的核形状和纹理都有很大的不同。此外,在H&E染色图像中,可能存在许多与有丝分裂核外观相似的细胞,如凋亡细胞和淋巴细胞,这些细胞被称为硬样本,很容易被错误地检测为有丝分裂核。2) 构建过程中所遇到的挑战包括数据不平衡,与其他非有丝分裂核相比,单个高倍镜视野中有丝分裂核的数量非常小,这导致难以提取有效的特征。3) 数据集不足,大多数自动检测方法依赖于大量数据来支持模型训练的准确性。4) 有丝分裂核的结构和形态变化多样,现有的数据集无法涵盖所有病理类型。
常用场景
经典使用场景
GZMH数据集主要用于乳腺癌的病理图像分析,特别是有丝分裂核的检测。该数据集提供了丰富的有丝分裂核的标注数据,使得研究人员能够训练和测试有丝分裂核检测模型。经典的使用场景包括但不限于:1) 训练和评估深度学习模型,以提高有丝分裂核检测的准确性和效率;2) 研究有丝分裂核在不同病理阶段的形态学特征,为乳腺癌的分级和诊断提供参考;3) 探索有丝分裂核检测模型在实际病理诊断中的应用,以减轻病理医生的工作负担并提高诊断的可靠性。
解决学术问题
GZMH数据集的建立和发布解决了几个关键的学术研究问题:1) 现有的有丝分裂核检测数据集通常来源于研究挑战,与临床实际应用存在差异。GZMH数据集直接来自医院临床数据,更具代表性和实用性;2) 有丝分裂核的检测是一个具有挑战性的任务,因为它们在组织切片中的数量较少,且形态复杂多变。GZMH数据集提供了大量的有丝分裂核标注数据,有助于提高检测模型的准确性和鲁棒性;3) 现有的有丝分裂核检测模型在临床数据上的表现往往不佳。GZMH数据集的发布为研究人员提供了一个验证模型泛化能力的平台,有助于提高模型在临床应用中的表现。
衍生相关工作
GZMH数据集的发布促进了相关领域的研究进展。基于GZMH数据集,研究人员可以探索更有效的有丝分裂核检测算法,提高检测模型的准确性和鲁棒性。此外,GZMH数据集还可以用于研究有丝分裂核在不同病理阶段的形态学特征,为乳腺癌的分级和诊断提供更准确的参考。在未来的研究中,GZMH数据集有望被用于开发更多基于深度学习的病理图像分析工具,为乳腺癌的诊断和治疗提供更有效的支持。
以上内容由遇见数据集搜集并总结生成



