100K-RBC-PathOlOgics
收藏arXiv2024-03-27 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2403.18468v1
下载链接
链接失效反馈官方服务:
资源简介:
100K-RBC-PathOlOgics数据集是由开罗大学工程学院生物医学工程与系统系的团队创建,专注于红细胞(RBC)图像的分割与分类。该数据集包含超过100,000张RBC图像,涵盖八种不同的RBC类型,是目前公开的最大RBC分类数据集之一。数据集中的图像来自四种不同的扫描仪,增加了数据的多变性和细节丰富性。创建过程中,两位血液病理学家独立标记并手动创建了RBC细胞分割的掩码。该数据集主要用于训练和测试RBC分割和分类的深度学习模型,特别是在医学图像分析领域,旨在提高诊断过程的效率和准确性,减少人为错误。
The 100K-RBC-Pathologies Dataset was developed by a team from the Department of Biomedical Engineering and Systems, Faculty of Engineering, Cairo University, focusing on the segmentation and classification of red blood cell (RBC) images. This dataset contains over 100,000 RBC images covering eight distinct RBC subtypes, and is one of the largest publicly available RBC classification datasets to date. The images in the dataset are sourced from four different scanners, which enhances the data variability and detail richness. During its development, two hematopathologists independently annotated and manually created segmentation masks for RBCs. This dataset is primarily used for training and testing deep learning models for RBC segmentation and classification, particularly in the field of medical image analysis, with the goal of improving the efficiency and accuracy of diagnostic processes and reducing human errors.
提供机构:
开罗大学工程学院生物医学工程与系统系
创建时间:
2024-03-27
搜集汇总
数据集介绍

构建方式
在数字病理学领域,构建高质量数据集是推动红细胞形态分析研究的关键。100K-RBC-PathOlgics数据集的构建始于从疑似原发性骨髓纤维化患者中选取25张手工制备的外周血与骨髓涂片,这些涂片随后通过四台不同型号的数字病理扫描仪进行全切片图像采集,以40倍放大倍数生成图像。每张切片被划分为约2000个非重叠图像块,每个图像块包含超过200个血细胞。两位具有超过20年临床经验的血液病理学家独立完成了数据标注工作,他们采用半自动分割方案:先使用数字笔手动勾勒细胞边界,再通过自动居中与掩模调整生成精确的细胞分割掩模。最终,数据集形成了两个子集:包含100,118张带掩模的裁剪红细胞图像的100K-RBC-Mask-PathOlgics用于分割任务,以及包含100,873张已分割红细胞图像的100K-RBC-PathOlgics用于分类任务,所有细胞被归类为正常红细胞、椭圆形红细胞、锯齿状红细胞等八个临床相关类别。
使用方法
该数据集为红细胞图像的深度学习分析提供了系统化的应用路径。在分割任务中,研究者可使用100K-RBC-Mask-PathOlgics子集,将图像统一缩放至80×80像素并归一化后,按照涂片来源划分为训练、验证与测试集,以此训练如U-Net等分割网络,并可通过实时数据增强提升模型鲁棒性。在分类任务中,100K-RBC-PathOlgics子集支持八类红细胞的分类模型开发,建议采用基于涂片的5×2交叉验证方案以确保样本独立性,并可结合迁移学习策略,如在ImageNet预训练的EfficientNetB0网络上进行微调。针对类别不平衡问题,可尝试类别加权损失函数进行优化。数据集的多扫描仪特性使其非常适合用于评估模型在不同成像设备下的泛化性能,为开发临床实用的自动化血细胞分析工具提供了坚实的基准。
背景与挑战
背景概述
在数字病理学与人工智能深度融合的时代背景下,开罗大学与PathOlgics公司的研究团队于2023年共同发布了100K-RBC-PathOlgics数据集,旨在解决血液病理学中红细胞形态自动分析的瓶颈问题。该数据集聚焦于原发性骨髓纤维化患者的红细胞图像,包含超过十万个标注样本,涵盖正常、椭圆形、泪滴形等八个临床相关类别,并由两位血液病理学家独立标注并提供分割掩码。其规模与多样性超越了此前所有公开的血液病理数据集,为开发高精度、可泛化的红细胞分割与分类模型奠定了坚实基础,显著推动了数字血液病理学从研究向临床应用的转化。
当前挑战
该数据集致力于解决红细胞形态自动分类与分割这一核心领域挑战,其难点在于区分高度相似的细胞形态(如正常与椭圆形红细胞)以及准确分割重叠或边缘模糊的细胞。在构建过程中,研究团队面临多重挑战:首先,需确保来自四台不同扫描仪的图像具有足够的多样性与一致性,以增强模型的泛化能力;其次,针对临床罕见但至关重要的细胞类型(如泪滴形红细胞),需在有限样本下保证标注的准确性与类别平衡;此外,为数十万个细胞手动创建精确的分割掩码是一项极其耗时且需要高度专业知识的任务,对标注流程的质量控制提出了严峻考验。
常用场景
经典使用场景
在数字病理学领域,100K-RBC-PathOlgics数据集作为大规模红细胞图像资源,其经典使用场景集中于红细胞形态的自动化分割与分类研究。该数据集通过整合超过10万个红细胞样本,涵盖八种不同形态类别,为深度学习模型提供了丰富的训练与验证基础。研究人员常利用该数据集构建两阶段分析框架,首先采用U-Net架构实现红细胞图像的精确分割,随后基于EfficientNetB0模型完成形态分类任务,从而在保持高精度的同时优化计算效率。
解决学术问题
该数据集有效解决了血液病理学研究中数据稀缺与多样性不足的学术难题。传统红细胞分析依赖人工镜检,存在主观性强、效率低下等问题,而公开数据集往往规模有限或缺乏多源扫描数据。100K-RBC-PathOlgics通过整合四台不同扫描仪采集的图像,提供了具有广泛真实世界变异性的样本,支持开发鲁棒性更强的算法。其意义在于推动了红细胞形态定量分析从经验驱动向数据驱动的范式转变,为贫血、骨髓纤维化等疾病的辅助诊断建立了可复现的研究基准。
实际应用
在实际医疗场景中,该数据集支撑的红细胞分析系统可集成至临床实验室工作流程,实现外周血涂片的自动化筛查。系统能够快速识别泪滴形红细胞、碎片化红细胞等与严重疾病相关的形态异常,辅助 hematologist 进行骨髓纤维化、贫血等疾病的早期诊断。同时,通过量化椭圆形红细胞比例,该系统可作为贫血的敏感筛查工具;其重叠细胞检测功能还能指导技术人员选择最佳计数区域,提升血涂片分析的整体效率与标准化程度。
数据集最近研究
最新研究方向
在数字病理学领域,100K-RBC-PathOlgics数据集的推出标志着红细胞形态学分析进入大规模多源数据驱动的新阶段。该数据集凭借超过10万个红细胞图像、八种临床相关类别以及来自四种不同扫描仪的多样性,为深度学习模型提供了前所未有的训练基础。前沿研究聚焦于开发高效的两阶段框架,结合U-Net架构实现精准分割与EfficientNetB0架构完成分类,在测试集上分别达到98.03%的IoU和96.5%的平均分类准确率。相关热点探索包括利用迁移学习与交叉验证策略优化模型泛化能力,以及通过类别加权损失函数处理数据不平衡问题。这一进展不仅推动了自动化血涂片分析的实用化进程,也为贫血、骨髓纤维化等疾病的早期筛查与诊断提供了可靠的技术支撑,在临床病理学中具有重要的转化意义。
相关研究论文
- 1Deep Learning Segmentation and Classification of Red Blood Cells Using a Large Multi-Scanner Dataset开罗大学工程学院生物医学工程与系统系 · 2024年
以上内容由遇见数据集搜集并总结生成



