Complete Blood Count (CBC) Dataset

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/MahmudulAlam/Complete-Blood-Cell-Count-Dataset

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

该数据集包含360张血液涂片图像，包括红细胞（RBCs）、白细胞（WBCs）和血小板，并附有标注文件。数据集被分为训练、测试和验证集，其中训练集包含300张图像，测试和验证集各包含60张图像。图像分辨率为640x480，标注格式详细说明了文件结构和内容。

This dataset comprises 360 blood smear images, including red blood cells (RBCs), white blood cells (WBCs), and platelets, accompanied by annotation files. The dataset is divided into training, testing, and validation sets, with the training set containing 300 images, and the testing and validation sets each containing 60 images. The image resolution is 640x480, and the annotation format details the file structure and content.

创建时间：

2018-04-29

原始信息汇总

数据集概述

数据集名称

Complete Blood Count (CBC) Dataset

数据集内容

图像数量: 360张血涂片图像
图像分辨率: 640 x 480
图像分割: 训练集300张，测试集60张，验证集60张
注释文件: 每张图像均附带注释文件

数据集修改

对原始数据集进行了修改，清理了错误的注释文件
将数据集分为训练、测试和验证三个部分

注释格式

使用XML格式，包含图像信息、尺寸、对象（红细胞、白细胞、血小板）的位置和边界框

数据集用途

用于自动识别和计数血液细胞的研究

引用信息

若使用此数据集，请引用相关论文：

@article{alam2019machine, title={Machine learning approach of automatic identification and counting of blood cells}, author={Alam, Mohammad Mahmudul and Islam, Mohammad Tariqul}, journal={Healthcare Technology Letters}, volume={6}, number={4}, pages={103--108}, year={2019}, publisher={IET} }

搜集汇总

数据集介绍

构建方式

在构建全血细胞计数（CBC）数据集时，研究者对原始数据集进行了细致的修正与优化。原始数据集中存在部分图像的标注文件中红细胞（RBC）数量低于实际值，甚至有标注文件完全遗漏了红细胞的情况。为确保数据集的准确性与可靠性，研究者对这些错误进行了清理，并将数据集划分为训练集、测试集和验证集。训练集包含300张带有标注的血液涂片图像，测试集和验证集各包含60张。由于数据量有限，验证集的部分数据取自训练集。

特点

该数据集的显著特点在于其图像分辨率统一为640x480，且所有标注文件中的矩形边界框均被转换为圆形边界框，以简化表示。此外，数据集的划分方式确保了训练、测试和验证集的独立性，为模型训练和评估提供了良好的基础。尽管数据量相对有限，但通过精心修正和划分，数据集在血液细胞识别与计数任务中展现了较高的实用价值。

使用方法

使用该数据集时，用户可将其分为训练、测试和验证三部分，分别用于模型的训练、测试和验证。每张图像均附带详细的标注文件，标注格式包括细胞类型（如红细胞、白细胞和血小板）及其对应的圆形边界框。用户可根据需求调整数据集的使用方式，例如通过数据增强技术扩充训练集，或利用验证集优化模型参数。引用该数据集时，建议参考相关文献以确保学术规范。

背景与挑战

背景概述

全血细胞计数（Complete Blood Count, CBC）数据集是由Mahmudul Alam等人创建，旨在支持自动识别和计数血液细胞的研究。该数据集包含360张血液涂片图像及其注释文件，分为训练、测试和验证集。数据集的构建基于对原始数据集的修改，以纠正注释文件中的错误，确保数据质量。该数据集的主要研究目标是利用机器学习方法实现血液细胞的自动识别与计数，这一研究对医学诊断领域具有重要意义，尤其是在提高血液分析的效率和准确性方面。

当前挑战

CBC数据集在构建过程中面临多个挑战。首先，原始数据集中存在注释错误，如红细胞（RBC）数量低于实际值或完全缺失，这要求研究人员对数据进行清理和修正。其次，数据集规模相对较小，仅有360张图像，这在训练深度学习模型时可能引发过拟合问题。此外，血液细胞的多样性和复杂性，如不同类型的细胞（红细胞、白细胞、血小板）的形态差异，增加了分类和计数的难度。最后，数据集的分割和注释格式标准化也是一项技术挑战，确保不同类型的细胞能够被准确识别和计数。

常用场景

经典使用场景

在医学影像分析领域，Complete Blood Count (CBC) Dataset 的经典使用场景主要集中在自动识别和计数血液细胞。该数据集包含了360张血涂片图像及其标注文件，分为训练、测试和验证集。研究者可以利用这些图像和标注，训练机器学习模型，以实现对红细胞（RBC）、白细胞（WBC）和血小板（Platelets）的自动识别与计数。这一应用场景在临床诊断中具有重要意义，能够提高血液检测的效率和准确性。

衍生相关工作

基于Complete Blood Count (CBC) Dataset，研究者们已经开展了一系列相关工作。例如，有研究利用该数据集开发了基于深度学习的血液细胞自动识别模型，显著提高了识别精度。此外，还有研究探讨了如何通过数据增强技术，进一步提升模型在不同样本上的泛化能力。这些衍生工作不仅验证了该数据集在学术研究中的价值，也为实际应用提供了技术支持，推动了医学影像分析领域的持续发展。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集