WBCAtt; LeukemiaAttri

Name: WBCAtt; LeukemiaAttri
Creator: 伦敦大学学院·计算机科学系
Published: 2026-01-07 21:31:33
License: 暂无描述

arXiv2026-01-07 更新2026-01-09 收录

下载链接：

https://github.com/julievanlogtestijn-ucl/Vision-Language-Models-for-Leukemia-Detection/

下载链接

链接失效反馈

官方服务：

资源简介：

该研究构建了一个融合健康与白血病细胞形态学的多模态数据集，包含约1.4万张外周血涂片图像与专家标注的配对数据，由伦敦大学学院团队整合公开的WBCAtt（1万健康细胞）和LeukemiaAttri（1万白血病细胞）数据集后筛选得到。数据集通过GPT-4生成结构化形态描述文本，涵盖核染色质纹理、细胞大小等11类健康细胞特征和7类白血病亚型特征，旨在开发可解释的白血病诊断视觉语言模型，推动血液学AI的临床透明化应用。

This study develops a multimodal dataset integrating morphological information of healthy and leukemic cells. The dataset comprises approximately 14,000 paired peripheral blood smear images and expert-annotated corresponding data, which was screened and curated by the team at University College London (UCL) following the integration of the publicly available WBCAtt (10,000 healthy cells) and LeukemiaAttri (10,000 leukemic cells) datasets. Structured morphological description texts were generated for the dataset via GPT-4, covering 11 categories of healthy cell features including nuclear chromatin texture and cell size, as well as 7 categories of leukemic subtype features. This dataset is designed to facilitate the development of interpretable visual-language models for leukemia diagnosis, and to promote the clinically transparent application of artificial intelligence in hematology.

提供机构：

伦敦大学学院·计算机科学系

创建时间：

2026-01-07

搜集汇总

数据集介绍

构建方式

在血液学形态分析领域，构建高质量的数据集是推动可解释人工智能发展的关键。WBCAtt; LeukemiaAttri数据集的构建融合了健康与白血病白细胞图像，通过整合WBCAtt数据集中的一万个健康细胞标注和LeukemiaAttri数据集中的一万个白血病细胞标注，经过筛选后形成约一万四千个细胞图像。每个图像均与专家定义的形态属性配对，这些属性通过模板化句子转化为结构化自然语言描述，并利用GPT-4进行语义增强，确保描述在保留事实性形态特征的同时，提升语言的多样性与临床相关性。

特点

该数据集的核心特点在于其深度形态学标注与临床解释性的紧密结合。它不仅覆盖了健康白细胞的五种类型及白血病五大亚型，还细致标注了核染色质纹理、核仁可见性、胞浆量等关键形态属性，为模型学习提供了丰富的视觉-语言对应关系。数据集的构建强调诊断可解释性，通过属性到文本的映射，使生成描述能够直接关联临床诊断逻辑，从而支持透明化AI决策。此外，数据来源的多样性与严格的质量控制，确保了其在真实世界场景中的泛化能力与可靠性。

使用方法

在应用层面，该数据集主要用于训练和评估视觉-语言模型，以生成形态感知的白细胞描述。研究人员可基于数据集进行全参数微调或参数高效微调（如LoRA），优化模型在图像描述生成任务中的表现。通过结合BLEU、ROUGE-L等自动评估指标与基于正则表达式的属性提取方法，能够量化生成文本的形态准确性。此外，数据集的图像嵌入可用于训练轻量级分类器，验证模型在白血病亚型识别和细胞类型分类中的判别能力，从而全面评估AI系统的临床可解释性与诊断效用。

背景与挑战

背景概述

在血液病理学领域，白血病诊断长期依赖于外周血涂片的显微镜形态学评估，这一过程不仅耗时且易受主观因素影响。为推进可解释人工智能在血液学诊断中的应用，WBCAtt与LeukemiaAttri数据集应运而生，由伦敦大学学院的研究团队于2023至2024年间构建。该数据集整合了约1.4万张健康与白血病白细胞图像，并配以专家标注的形态属性描述，旨在训练视觉-语言模型生成符合临床逻辑的细胞形态描述。其核心研究问题在于突破传统深度学习模型的黑箱局限，通过结构化文本输出增强诊断过程的透明度与可信度，为自动化血液学分析提供了重要的数据基础。

当前挑战

该数据集致力于解决白血病细胞形态学分析中的可解释性挑战，旨在使AI模型能够生成符合临床标准的形态描述，而非仅提供分类结果。在构建过程中，研究人员面临多重困难：首先需将离散的专家标注属性转化为连贯的自然语言描述，同时确保文本在语义上精确对应细胞核形态、染色质纹理等细微特征；其次，数据整合涉及跨源图像的质量控制，需剔除标注不完整或成像异常的样本以保障数据一致性。此外，模型训练需平衡形态学准确性与语言流畅性，这对标注规范与算法设计提出了较高要求。

常用场景

经典使用场景

在血液病理学领域，WBCAtt与LeukemiaAttri数据集的经典应用场景聚焦于构建可解释的白血病细胞形态分析模型。该数据集通过整合约1.4万张健康与白血病细胞图像及其专家标注的形态属性描述，为视觉-语言模型提供了精准的训练基础。研究人员利用此类数据训练模型生成具有临床意义的细胞形态描述，从而将传统的黑箱分类器转化为能够输出可理解诊断依据的智能系统，这在提升白血病诊断的透明度和可信度方面展现出显著价值。

衍生相关工作

基于该数据集衍生的经典工作包括HemBLIP模型及其与MedGEMMA等生物医学基础模型的对比研究。这些工作探索了参数高效微调技术如LoRA在医学视觉-语言模型中的应用，证明了在降低计算成本的同时提升模型形态描述准确性的可行性。相关研究还建立了将文本输出与形态属性提取相连的评估流程，为后续可解释医学AI的研究提供了方法论框架，推动了透明化血液学诊断工具的发展。

数据集最近研究