five

儿童白血病骨髓数据集

收藏
arXiv2025-09-19 更新2025-11-21 收录
下载链接:
https://zenodo.org/records/15490664
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由德国弗劳恩霍夫数字医学研究所MEVIS的研究团队创建,旨在为儿童白血病的诊断提供支持。数据集包含246名患有急性髓细胞性白血病(AML)、慢性髓细胞性白血病(CML)或急性淋巴细胞白血病(ALL)的儿童的骨髓涂片图像,以及这些儿童的诊断、临床和实验室信息。数据集包含超过40000个细胞的边界框注释,以及超过28000个细胞的高质量细粒度类别标签,这些标签是通过五位血液学专家的一致性方法获得的。这是首个集成细胞检测、细胞分类和诊断预测三个关键步骤的大型数据集。数据集的创建旨在促进人工智能辅助诊断的研究与发展,为更精确的诊断和改善患者预后做出贡献。

This dataset was developed by the research team from MEVIS, Fraunhofer Institute for Digital Medicine, Germany, to support the diagnosis of childhood leukemia. It comprises bone marrow smear images from 246 children diagnosed with acute myeloid leukemia (AML), chronic myeloid leukemia (CML), or acute lymphoblastic leukemia (ALL), alongside their corresponding diagnostic, clinical, and laboratory information. The dataset includes bounding box annotations for over 40,000 cells, as well as high-quality fine-grained category labels for more than 28,000 cells, which were obtained via a consensus approach involving five hematology experts. This is the first large-scale dataset that integrates three key steps: cell detection, cell classification, and diagnostic prediction. The development of this dataset aims to promote research and development of AI-assisted diagnosis, and contribute to more accurate diagnostics and improved patient prognosis.
提供机构:
德国弗劳恩霍夫数字医学研究所MEVIS
创建时间:
2025-09-19
搜集汇总
数据集介绍
main_image_url
构建方式
在儿科白血病诊断领域,骨髓涂片的形态学分析是疾病诊断的关键环节。该数据集通过回顾性收集246名18岁以下确诊为急性髓系白血病、慢性髓系白血病或急性淋巴细胞白血病的患者骨髓涂片构建而成。采用Pappenheim染色法制备的涂片经高分辨率全玻片扫描仪数字化后,专家在细胞分布均匀的区域标注了831个感兴趣区域,其中426个区域内的所有白细胞均通过边界框进行精确定位。为提升标注质量,研究团队开发了基于共识机制的网页标注系统,每个细胞图像需经至少两名观察者独立标注,并通过多数投票原则确定最终类别标签,最终形成了包含45,176个边界框标注和28,830个高质量类别标签的细胞分类数据集。
特点
该数据集在血液病理学领域展现出显著的多维特征优势。其覆盖三种主要白血病类型及其21种亚型,包含完整的诊断信息、18项实验室参数和临床差异细胞计数数据。细胞分类体系涵盖33个精细类别,从原始细胞到成熟粒细胞各阶段均有体现,其中嗜碱性粒细胞和单核细胞前体等稀有类别尤为珍贵。数据划分采用患者级别的分层策略,通过人工优化确保训练集、验证集和测试集在诊断类型和细胞类别分布上保持均衡。特别值得注意的是,该数据集首次整合了细胞检测、细胞分类和诊断预测三大白血病诊断关键环节,为端到端的人工智能辅助诊断研究提供了完整数据基础。
使用方法
该数据集支持多层次的研究应用,研究者可通过国家癌症研究所影像数据共享平台获取标准DICOM格式数据。在细胞检测任务中,可利用边界框标注训练目标检测模型,研究团队采用的Faster R-CNN模型达到了0.967的精确度。细胞分类任务提供单细胞图像和33类标签,配合提出的ResNet-50改进架构可实现细粒度分类,该模型在测试集上取得了0.981的AUROC值。诊断预测层面则融合了细胞计数特征与实验室参数,使用者可基于梯度提升树等算法构建白血病类型分类器,实验显示基于预测细胞计数的诊断模型平均F1分数达到0.90。数据集严格的患者级别划分确保了模型评估的临床可靠性,为开发稳健的白血病辅助诊断系统提供了坚实基础。
背景与挑战
背景概述
儿童白血病骨髓数据集由德国弗劳恩霍夫数字医学研究所等多家机构联合创建,专注于儿科白血病的人工智能辅助诊断研究。该数据集整合了246名18岁以下患者的完整诊断信息,涵盖急性淋巴细胞白血病、急性髓系白血病和慢性髓系白血病三种主要类型。数据集包含超过4万个细胞边界框标注和2.8万个高质量细胞分类标签,通过五位血液学专家共识标注确保标签可靠性。这一综合性资源首次实现了从细胞检测、分类到诊断预测的全流程覆盖,为血液形态学分析领域提供了重要的基准数据支撑。
当前挑战
在白血病诊断领域,该数据集致力于解决传统人工镜检存在的效率低下和主观性强等核心问题。构建过程中面临多重挑战:细胞形态多样性导致分类困难,特别是相似细胞类型的区分;罕见细胞类别样本不足影响模型泛化能力;临床数据存在大量缺失值需进行特征权衡;共识标注流程虽提升质量但引入确认偏差风险。此外,数据集在白血病亚型分布上存在显著不平衡,限制了亚型分类模型的开发潜力,这些因素共同构成了数据集应用与扩展的主要技术瓶颈。
常用场景
经典使用场景
在血液形态学分析领域,该数据集最经典的应用场景是构建端到端的白血病自动诊断流程。研究人员利用其包含的4万余个细胞边界框标注和2.8万个精细类别标签,系统性地训练细胞检测与分类模型,最终通过细胞计数特征实现白血病类型的精准预测。这种从细胞形态学到疾病诊断的完整技术路线,为传统依赖人工镜检的血液病理分析提供了可复现的自动化解决方案。
衍生相关工作
该数据集的发布催生了多项血液细胞分析的重要研究。基于其构建的细胞检测与分类模型在Matek等经典数据集上实现了0.749的中位F1分数,验证了迁移学习效能。后续研究在此基础上发展了注意力机制网络、胶囊网络等新型架构,同时启发了针对急性早幼粒细胞白血病等特殊亚型的检测模型开发,推动了血液病理AI研究向细粒度诊断方向的深入发展。
数据集最近研究
最新研究方向
在儿童白血病骨髓形态学分析领域,该数据集推动了人工智能辅助诊断系统的前沿探索。研究聚焦于整合细胞检测、分类与诊断预测的全流程自动化,利用超过40,000个标注细胞和28,000个精细类别标签,构建了目前最全面的儿科白血病公共数据资源。热点方向包括基于Faster R-CNN的细胞检测模型实现0.96平均精度,以及33类细胞分类中0.98曲线下面积的突破,显著提升了急性淋巴细胞白血病与髓系白血病的鉴别效能。这类研究通过融合临床实验室参数与细胞形态特征,为突破传统人工镜检的局限性提供了新范式,对实现标准化、可复现的智能诊断具有里程碑意义。
相关研究论文
  • 1
    通过德国弗劳恩霍夫数字医学研究所MEVIS · 2025年
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务