five

dwb2023/cnmc-leukemia-2019

收藏
Hugging Face2024-06-30 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/dwb2023/cnmc-leukemia-2019
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于识别和分类急性淋巴细胞白血病(ALL)的白细胞显微图像,为医学影像学和血液学领域的研究人员和从业者提供了宝贵的资源。数据集包含10,661张图像,所有图像都在一个训练分割中,研究人员可以自行创建验证和测试分割,或使用预定义的交叉验证折叠。数据集适用于图像分类、目标检测和分割等机器学习任务。

This dataset contains microscopic images of white blood cells for the purpose of identifying and classifying Acute Lymphoblastic Leukemia (ALL). It provides a valuable resource for researchers and practitioners in the field of medical imaging and hematology. The dataset features include a unique identifier for each patient, image number, cell count, image data, label (cancer/normal), class label, cross-validation fold assignment, original image name, and relative file path. The dataset is suitable for various machine learning tasks, including image classification, object detection, and segmentation. The dataset is divided into a single training set containing 10,661 images.
提供机构:
dwb2023
原始信息汇总

数据集概述

数据集简介

该数据集包含用于识别和分类急性淋巴细胞白血病(ALL)的白细胞显微图像。它为医学影像和血液学领域的研究人员和从业者提供了宝贵的资源。

数据字段

字段名 数据类型 描述 示例值 用途
subject_id String 每个患者的唯一标识符 "1", "H24" 患者级别的分组和分析
image_number Integer 同一患者图像的顺序编号 1, 10, 22 图像排序和跟踪
cell_count Integer 图像中的细胞数量 1, 2, 12 分析/建模的特征
image Image 血液细胞的显微图像 (二进制图像数据) 图像分析的输入
label String 简单标签(癌症/正常) "cancer", "healthy" 分类的目标变量
class_label String label的别名 "all", "hem" label的同义词
fold Integer 交叉验证折叠分配 0, 1, 2 模型训练/评估
original_image_name String 图像的原始文件名 "UID_1_1_1_all.bmp" 源数据的引用
relative_file_path String 相对于数据集根目录的图像路径 "fold_0/all/UID_1_1_1_all.bmp" 定位图像文件

支持的任务和排行榜

该数据集适用于多种机器学习任务,包括:

  • 图像分类:区分ALL和健康(HEM)细胞。
  • 目标检测:定位并计数图像中的单个细胞。
  • 分割:描绘图像中单个细胞的边界。

ISBI 2019 ALL挑战赛提供了一个排行榜,用于基准测试分类任务的性能。

数据分割

数据集以单一分割(train)形式提供,包含所有10,661张图像。鼓励研究人员创建自己的验证和测试分割,或利用预定义的折叠进行交叉验证实验。

数据引用

Mourya, S., Kant, S., Kumar, P., Gupta, A., & Gupta, R. (2019). ALL Challenge dataset of ISBI 2019 (C-NMC 2019) (Version 1) [dataset]. The Cancer Imaging Archive. https://doi.org/10.7937/tcia.2019.dc64i46r

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过收集急性淋巴细胞白血病(ALL)患者的显微镜下白细胞图像构建而成,旨在为医学影像学和血液学领域的研究者提供宝贵的资源。数据集包含每位患者的唯一标识符、图像序列号、细胞数量、显微镜图像、简单标签(癌症/正常)、类别标签、交叉验证折叠分配、原始图像名称及相对文件路径等信息。所有数据均以单一切割(train)形式提供,共计10,661张图像。
特点
该数据集的特点在于其专注于急性淋巴细胞白血病的显微镜图像分类,提供了丰富的图像数据和详细的元数据信息。每张图像均标注了细胞数量、癌症或健康标签,并附有交叉验证折叠分配,便于模型训练与评估。此外,数据集还支持多种机器学习任务,如图像分类、目标检测和分割,为研究者提供了广泛的应用场景。
使用方法
该数据集适用于多种机器学习任务,研究者可利用其进行图像分类、目标检测和细胞分割等实验。数据集提供了预定义的交叉验证折叠,便于模型训练与评估。用户可根据需要创建自定义的验证集和测试集,或直接使用现有折叠进行实验。图像数据以二进制格式存储,可通过相对文件路径快速定位,便于数据加载与处理。
背景与挑战
背景概述
dwb2023/cnmc-leukemia-2019数据集由Mourya等人于2019年创建,旨在为急性淋巴细胞白血病(ALL)的识别与分类提供高质量的显微图像资源。该数据集由ISBI 2019 ALL挑战赛支持,收录了10,661张白细胞显微图像,涵盖了癌症与健康细胞的标注信息。其核心研究问题在于通过机器学习技术提升ALL的诊断精度,为医学影像学和血液学领域的研究者提供了重要的实验数据。该数据集在推动自动化白血病诊断技术的发展中发挥了关键作用,并为相关算法的性能评估提供了标准化基准。
当前挑战
dwb2023/cnmc-leukemia-2019数据集在解决急性淋巴细胞白血病(ALL)分类问题时面临多重挑战。首先,显微图像中细胞形态的多样性和复杂性使得特征提取和分类任务极具难度。其次,数据集中癌症与健康细胞的样本分布可能存在不平衡,影响模型的泛化能力。在构建过程中,研究人员需克服图像质量不一致、标注一致性难以保证等问题,同时还需确保数据的隐私性和合规性。此外,如何高效处理大规模图像数据并优化模型性能,也是该领域亟待解决的技术难题。
常用场景
经典使用场景
在医学影像和血液学领域,dwb2023/cnmc-leukemia-2019数据集被广泛用于急性淋巴细胞白血病(ALL)的识别与分类研究。该数据集通过提供大量显微镜下的白细胞图像,为研究人员构建和验证机器学习模型提供了坚实的基础。特别是在图像分类任务中,数据集被用于区分癌细胞与正常细胞,为自动化诊断系统的开发提供了关键数据支持。
解决学术问题
该数据集解决了急性淋巴细胞白血病早期诊断中的关键问题,特别是在自动化图像分析领域。通过提供高质量的显微镜图像和详细的标注信息,研究人员能够开发出更精确的分类模型,从而减少人工诊断的误差和时间成本。此外,数据集还为细胞检测和分割任务提供了丰富的实验数据,推动了医学影像分析技术的进步。
衍生相关工作
基于dwb2023/cnmc-leukemia-2019数据集,许多经典研究工作得以展开。例如,ISBI 2019 ALL Challenge利用该数据集进行了图像分类任务的基准测试,推动了深度学习在医学影像中的应用。此外,许多研究团队基于该数据集开发了新的细胞检测和分割算法,进一步丰富了医学影像分析的技术手段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作