临床巨核细胞数据集

Name: 临床巨核细胞数据集
Creator: 新疆大学软件工程学院, 中国乌鲁木齐
Published: 2025-02-12 16:24:36
License: 暂无描述

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.08200v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个包含11种不同巨核细胞亚型的综合临床数据集，用于巨核细胞的精细分类。数据集展现了明显的长尾分布特征，其中常见的巨核细胞亚型数据较多，而罕见亚型数据较少。该数据集的构建旨在通过深度学习技术对巨核细胞进行精确分类，解决传统方法在利用未标记数据和细胞图像中区分特征方面的局限性。

This study constructed a comprehensive clinical dataset encompassing 11 distinct megakaryocyte subtypes for fine-grained classification of megakaryocytes. The dataset displays a pronounced long-tail distribution, with ample data for common megakaryocyte subtypes and scarce samples for rare subtypes. This dataset is developed to enable accurate classification of megakaryocytes via deep learning technologies, addressing the limitations of traditional methods in leveraging unlabeled data and extracting discriminative features from cellular images.

提供机构：

新疆大学软件工程学院, 中国乌鲁木齐

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

为了应对骨髓涂片中巨核细胞分类所面临的挑战，该数据集采用了基于临床先验知识的细胞区域过滤、动态阈值调整的主动样本选择和基于原型的聚类方法。首先，利用高斯滤波和K-means聚类技术消除背景噪声，并使用HSV颜色空间分析提取细胞关键信息。其次，通过自适应样本选择机制，动态调整相似度阈值，以缓解类别不平衡的问题。最后，对标记样本进行原型聚类，以克服形态复杂性的挑战。实验结果表明，ActiveSSF不仅在分类性能上达到当前最佳水平，而且显著提高了罕见亚型的识别准确率。

特点

该数据集的特点在于其综合了主动学习和自监督预训练的优点，能够有效利用未标记数据，并在罕见亚型的识别上表现出色。此外，该数据集包含11种不同的巨核细胞亚型，能够更全面地反映其形态学变化。数据集的分布呈现明显的长尾现象，其中G-MK亚型最为常见，而CA-MK和HL-MK亚型相对较少，这为研究长尾分布问题提供了良好的数据基础。

使用方法

使用该数据集时，首先需要进行细胞区域过滤，包括高斯滤波、K-means聚类和HSV颜色空间分析等步骤。然后，通过ResNet网络提取特征并进行原型聚类，生成每个亚型的代表原型。最后，根据动态阈值调整机制进行样本选择，以缓解长尾分布问题。在整个过程中，需要不断调整参数以优化模型性能。

背景与挑战

背景概述

临床巨核细胞数据集的研究背景主要围绕巨核细胞的精确分类，这对于骨髓发育不良综合症（MDS）的早期诊断至关重要。随着深度学习在医学图像分析中的快速发展，其在医疗图像辅助诊断的准确性和效率方面取得了显著提升。然而，在染色切片中进行巨核细胞的自动分类仍然面临多个挑战，包括未充分利用大量未标记数据、细胞图像中有限的区分特征以及巨核细胞亚型之间的不平衡类别分布。为了解决这些问题，已经提出了各种基于深度学习的方法用于细胞分类，例如Su等人利用HSI颜色空间提取关键细胞特征并结合神经网络进行高效分类。尽管取得了这些进展，但有效利用未标记数据仍然是一个重大障碍。最近，自监督学习作为一种有前景的方法已经出现，它使模型能够从未标记数据中学习鲁棒的表示。本研究引入了一个全面的包含11种不同巨核细胞亚型的数据集，以实现对其形态变化的更完整表征。据我们所知，这是首次尝试将深度学习技术应用于巨核细胞亚型的细粒度分类。我们的分析表明，常规骨髓涂片扫描不仅包含各种非巨核细胞类型，还涉及广泛的背景区域，并且数据集表现出明显的长尾分布，其中某些亚型极为罕见。基于这些发现，我们提出了ActiveSSF，这是一个新型的自监督学习框架，它将主动学习策略整合到预训练阶段以增强模型性能。

当前挑战

临床巨核细胞数据集在构建过程中面临三个主要挑战：1)普遍存在的背景噪声，这会掩盖细胞细节；2)长尾分布限制了罕见亚型的数据；3)复杂的形态变化导致高类内变异性。为了解决这些问题，我们提出了ActiveSSF框架，该框架集成了主动学习和自监督预训练。具体来说，我们的方法采用高斯滤波与Kmeans聚类相结合，并辅以HSV分析和临床先验知识，以准确提取感兴趣区域；自适应样本选择机制，动态调整相似性阈值以减轻类别不平衡；以及基于标记样本的原型聚类，以克服形态复杂性。在临床巨核细胞数据集上的实验结果表明，ActiveSSF不仅实现了最先进的性能，而且显著提高了罕见亚型的识别准确率。此外，这些先进技术的整合进一步突显了ActiveSSF在临床环境中的实际潜力。为了促进进一步的研究，代码和数据集将在未来公开发布。

常用场景

经典使用场景

临床巨核细胞数据集在医学影像分析中具有广泛的应用，尤其在自监督学习中扮演着重要角色。该数据集包含了11种不同的巨核细胞亚型，为研究人员提供了丰富的样本资源，有助于深入探究巨核细胞的形态学特征。其经典使用场景包括但不限于：1. 自监督学习模型的预训练；2. 细胞图像的自动分类；3. 巨核细胞亚型的精细分类。

衍生相关工作

临床巨核细胞数据集的提出，为相关领域的研究提供了新的思路和方向。例如，基于该数据集，研究人员可以进一步探索自监督学习在医学影像分析中的应用，开发出更高效的模型。同时，数据集还可以用于研究巨核细胞的形态学特征，为临床诊断提供更丰富的参考依据。

数据集最近研究