Large Leukemia Dataset (LLD)

Name: Large Leukemia Dataset (LLD)
Creator: 信息工程大学智能机器实验室
Published: 2025-04-03 22:04:02
License: 暂无描述

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://im.itu.edu.pk/sparse-leukemiaattri/

下载链接

链接失效反馈

官方服务：

资源简介：

大型白血病数据集（LLD）是由信息工程大学智能机器实验室等机构收集的，包含两个子集‘LeukemiaAttri’和‘Sparse-LeukemiaAttri’。该数据集通过多种显微镜和相机在不同分辨率下收集了来自多个患者的周围血涂片图像，并由经验丰富的血液学家进行了详细的形态学属性标注。‘LeukemiaAttri’子集包含2.4K张显微图像，‘Sparse-LeukemiaAttri’子集则包括稀疏标注的训练数据和完全标注的测试数据。该数据集旨在解决显微镜图像分析的挑战，如白血病细胞的定位、分类和形态学属性预测。

The Large Leukemia Dataset (LLD) was collected by the Intelligent Machine Laboratory of Information Engineering University and other institutions, which contains two subsets: "LeukemiaAttri" and "Sparse-LeukemiaAttri". This dataset collected peripheral blood smear images from multiple patients using various microscopes and cameras at different resolutions, and the images were annotated with detailed morphological attributes by experienced hematologists. The "LeukemiaAttri" subset includes 2.4K microscopic images, while the "Sparse-LeukemiaAttri" subset consists of sparsely labeled training data and fully labeled test data. This dataset aims to address the challenges in microscopic image analysis, such as the localization, classification, and morphological attribute prediction of leukemia cells.

提供机构：

信息工程大学智能机器实验室

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

Large Leukemia Dataset (LLD) 的构建采用了多模态和多分辨率的数据采集策略。通过外周血涂片（PBF）从多位患者中收集数据，利用高成本和低成本显微镜、多种摄像头（包括高端显微镜摄像头和移动摄像头）以及三种放大倍数（10x、40x、100x）进行图像采集。每个白血病细胞在100x放大倍数下标注了7种形态学属性，包括细胞大小和核形状等，以增强诊断的可解释性。数据集的构建还采用了稀疏标注策略，显著减轻了血液学专家的标注负担。

使用方法

LLD数据集可用于多任务学习，包括白细胞检测、分类和形态学属性预测。用户可以通过加载数据集中的图像和标注信息，结合提出的AttriDet或SLA-Det模型进行训练和测试。稀疏标注部分特别适合研究如何在有限标注数据下提升模型性能。数据集还支持跨域适应性研究，适用于不同设备和分辨率下的白血病诊断任务。

背景与挑战

背景概述

白血病是全球范围内诊断频率排名第十的癌症，也是癌症相关死亡的主要原因之一。为了推动白血病诊断技术的发展，Abdul Rehman等研究人员于2025年提出了大型白血病数据集（Large Leukemia Dataset, LLD）。该数据集由巴基斯坦信息技术大学智能机器实验室和美国中佛罗里达大学计算机视觉研究中心联合开发，旨在解决医学影像分析中白血病细胞定位、分类和形态学评估的多任务挑战。LLD数据集通过外周血涂片（PBF）从多名患者中采集，利用多种显微镜、相机和放大倍数进行图像采集，涵盖了14种白细胞类型和7种形态学属性。这一数据集的发布为白血病诊断的可解释性研究和自动化分析提供了重要资源，显著提升了相关领域的研究水平。

当前挑战

LLD数据集在构建和应用过程中面临多重挑战。首先，在领域问题方面，白血病诊断需要高精度的细胞定位和形态学分析，但现有数据集普遍存在规模小、多样性不足的问题，限制了深度学习模型的泛化能力。其次，在数据构建过程中，研究人员需克服跨显微镜和跨分辨率图像配准的困难，包括显微镜载物台刻度校准不一致、分辨率差异导致的图像对齐问题等。此外，高倍镜（100x）下细胞注释需要浸油操作，而低倍镜（10x和40x）则无需，这增加了数据采集的复杂性。最后，稀疏标注策略虽然减轻了血液学专家的注释负担，但如何有效利用未标注区域的信息仍是算法设计中的关键挑战。

常用场景

经典使用场景

Large Leukemia Dataset (LLD) 在白血病诊断领域具有广泛的应用价值。该数据集通过外周血涂片（PBF）采集，涵盖了多种显微镜、摄像头和放大倍率下的白细胞（WBC）图像，为研究人员提供了丰富的多任务学习资源。其经典使用场景包括白细胞定位、分类和形态学评估，尤其在多任务学习（MTL）框架下，能够同时检测白细胞并预测其形态学属性，为临床诊断提供可解释的解决方案。

解决学术问题

LLD 解决了白血病诊断领域中的多个关键学术问题。首先，它填补了现有数据集的不足，提供了大规模、多样化的白细胞图像，克服了以往数据集规模小、领域单一的限制。其次，通过稀疏标注策略，显著降低了血液学专家的标注负担，同时提高了模型的泛化能力。此外，该数据集还支持多任务学习，能够同时完成白细胞检测和形态学属性预测，为白血病诊断提供了更全面的分析工具。

实际应用

LLD 在实际应用中具有重要价值。其多域数据集设计（包括高成本和低成本显微镜、多种摄像头和放大倍率）使得模型能够在不同设备和环境下稳定运行，适用于资源有限的地区。此外，稀疏标注策略使得模型能够利用未标注区域的信息，提高了诊断效率。这些特性使得 LLD 在远程医疗、自动化白血病筛查和临床辅助诊断中具有广泛的应用前景。

数据集最近研究