MLL23
收藏arXiv2025-07-17 更新2025-07-18 收录
下载链接:
https://github.com/dynamical-inference/cytosae
下载链接
链接失效反馈官方服务:
资源简介:
MLL23数据集包含41906个外周血单个细胞图像,由德国亥姆霍兹慕尼黑研究所的研究人员创建,旨在通过CytoSAE稀疏自编码器模型进行形态学概念发现。该数据集包括来自18种不同细胞类型的细胞图像,覆盖了各种成熟阶段和异常,涵盖了髓系和淋巴系谱系。数据集经过专家标注,用于训练CytoSAE模型,以便在血液学图像中发现具有解释性的形态学特征。CytoSAE模型通过将高维表示分解为稀疏、可解释的组件,实现了细胞形态学概念的学习,并在包括外周血涂片和骨髓细胞学在内的不同数据集上验证了其泛化能力。CytoSAE模型的应用领域包括急性髓系白血病(AML)亚型分类,通过生成患者级别的概念激活和疾病级别的概念分布,揭示了AML亚型的形态学特征,为AI驱动的血液学诊断提供了新的解释性水平。
The MLL23 dataset contains 41,906 single peripheral blood cell images, created by researchers at Helmholtz Munich, Germany, for morphological concept discovery via the CytoSAE sparse autoencoder model. This dataset includes cell images from 18 distinct cell types, covering various maturation stages and abnormalities, and spanning myeloid and lymphoid lineages. The dataset was expertly annotated to train the CytoSAE model for discovering interpretable morphological features in hematological images. The CytoSAE model learns cellular morphological concepts by decomposing high-dimensional representations into sparse, interpretable components, and its generalization ability has been validated across diverse datasets including peripheral blood smears and bone marrow cytology specimens. Applications of the CytoSAE model include acute myeloid leukemia (AML) subtyping: by generating patient-level concept activations and disease-level concept distributions, it reveals the morphological features of AML subtypes, providing a new level of interpretability for AI-driven hematological diagnostics.
提供机构:
德国亥姆霍兹慕尼黑研究所
创建时间:
2025-07-17
原始信息汇总
CytoSAE: 可解释的血液学细胞嵌入数据集概述
数据集内容
-
训练数据集
- MLL23: 包含41,906张外周血单细胞图像,涵盖18种细胞类型。
- 来源: https://github.com/marrlab/MLL23
- MLL23: 包含41,906张外周血单细胞图像,涵盖18种细胞类型。
-
评估数据集
- Acevedo: 17,092张外周血单细胞图像,标记为11个类别。
- 来源: https://data.mendeley.com/datasets/snkd93bnjr/1
- Matek19: 18,365张专家标注的外周血单细胞图像,分为15个类别。
- 来源: https://doi.org/10.7937/tcia.2019.36f5o9ld
- BMC: 171,373张专家注释的骨髓涂片细胞图像。
- 来源: https://doi.org/10.7937/TCIA.AXH3-T579
- AML_Hehr: 来自189名受试者的患者级单细胞图像,包括四种遗传性AML亚型和对照组。
- 来源: https://doi.org/10.7937/6ppe-4020
- Acevedo: 17,092张外周血单细胞图像,标记为11个类别。
模型权重
- 使用DinoBloom-B嵌入训练CytoSAE模型。
- 模型权重下载地址: https://nefeli.helmholtz-munich.de/records/fdn7v-4vt65/files/final_sparse_autoencoder_dinov2_vitb14_-2_resid_49152.pt?download=1
- 存储路径:
out/checkpoints/8jsxk3co/final_sparse_autoencoder_dinov2_vitb14_-2_resid_49152.pt
相关文件
- 数据集下载与配置指南: DATASET.md
- 训练任务说明: TASKS.md
- 分析演示:
- demo.ipynb
- analysis.ipynb
- patient_analysis.ipynb
参考文献
- Shetab Boushehri等, A large expert-annotated single-cell peripheral blood dataset for hematological disease diagnostics. medRxiv (2025)
- Acevedo等, A dataset of microscopic peripheral blood cell images for development of automatic recognition systems. Data in Brief 30, 105474 (2020)
- Matek等, A single-cell morphological dataset of leukocytes from AML patients and non-malignant controls. (2019)
- Matek等, An expert-annotated dataset of bone marrow cytology in hematologic malignancies. (2021)
- Hehr等, Explainable AI identifies diagnostic cells of genetic AML subtypes. PLOS Digital Health 2(3), e0000187 (2023)
- Koch等, DinoBloom: A foundation model for generalizable cell embeddings in hematology. In: MICCAI (2024)
搜集汇总
数据集介绍

构建方式
MLL23数据集的构建基于41,906张外周血单细胞图像,涵盖18种不同细胞类型,包括髓系和淋巴系的不同成熟阶段及异常细胞。该数据集通过DinoBloom-B基础模型提取图像嵌入,并利用稀疏自编码器(CytoSAE)进行特征分解,以发现形态学相关概念。训练过程中采用MSE损失函数和L1正则化,确保潜在表示的稀疏性和可解释性。数据集的构建还涉及多轮超参数优化和专家验证,以确保其科学性和可靠性。
特点
MLL23数据集的特点在于其广泛的细胞类型覆盖和高质量的专家标注,能够支持多种血液学研究和诊断任务。数据集不仅包含外周血细胞图像,还通过CytoSAE模型实现了跨数据集(如骨髓细胞学)的泛化能力。此外,数据集支持从亚细胞到疾病级别的多层次分析,能够识别患者特异性和疾病特异性的形态学特征,为AI驱动的血液学诊断提供了可解释的工具。
使用方法
MLL23数据集的使用方法包括通过CytoSAE模型提取形态学概念,生成患者级和疾病级的特征条形码。这些条形码可用于疾病分类和亚型分析,例如通过线性回归模型对急性髓系白血病(AML)进行亚型分类。此外,数据集支持补丁级别的激活分析,能够定位细胞内的异常区域。研究人员还可以利用该数据集进行跨域验证,评估模型在不同血液学图像数据集上的泛化能力。
背景与挑战
背景概述
MLL23数据集由Helmholtz Munich研究所的Carsten Marr和Steffen Schneider团队于2025年创建,旨在推动血液学细胞形态学的可解释性人工智能研究。该数据集包含41,906张外周血单细胞图像,覆盖18种细胞类型及不同成熟阶段的异常细胞,为开发稀疏自编码器CytoSAE提供了重要基础。作为首个专注于血液病诊断的细粒度形态学数据集,MLL23通过融合细胞学专家标注与深度学习技术,显著提升了急性髓系白血病等血液疾病的亚型分类精度,其创新性的细胞嵌入方法为医学影像分析领域树立了新的可解释性标准。
当前挑战
MLL23数据集面临的核心挑战体现在两个维度:在科学层面,如何从高维细胞图像中提取具有临床意义的形态学特征仍存在困难,特别是对于罕见细胞亚型的鉴别;在技术实现上,数据集构建需克服染色差异、成像质量不均等实际问题,同时确保专家标注的一致性。CytoSAE模型的开发过程中,稀疏自编码器的扩展因子选择、潜在空间维度优化等超参数调整对概念发现的完备性产生显著影响,而跨数据集验证时出现的领域偏移现象也增加了模型泛化的难度。
常用场景
经典使用场景
在血液学领域,MLL23数据集作为一项关键资源,主要用于单细胞图像的形态学分析和分类。该数据集包含超过40,000张外周血单细胞图像,覆盖18种不同细胞类型,为研究人员提供了丰富的细胞形态学数据。通过结合稀疏自编码器(SAE)技术,MLL23数据集能够高效提取细胞图像的潜在特征,从而支持细胞类型的自动识别和疾病相关形态学特征的发现。
实际应用
MLL23数据集在实际应用中广泛用于急性髓系白血病(AML)等血液疾病的诊断和分型。通过生成患者特异性和疾病特异性的形态学概念,该数据集能够帮助临床医生识别病理特征细胞和局部细胞异常。此外,其跨数据集泛化能力使其在骨髓细胞学和外周血涂片分析中均表现出色,为临床决策提供了可靠支持。
衍生相关工作
MLL23数据集衍生了多项经典工作,例如CytoSAE稀疏自编码器的开发及其在AML亚型分类中的应用。此外,基于该数据集的研究还推动了DinoBloom-B等血液学基础模型的优化,进一步提升了细胞嵌入的可解释性。这些工作不仅在学术上具有重要意义,还为临床实践中的AI辅助诊断提供了技术基础。
以上内容由遇见数据集搜集并总结生成



