five

TXL-PBC

收藏
arXiv2024-07-18 更新2024-07-22 收录
下载链接:
https://github.com/lugan113/TXL-PBC_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TXL-PBC数据集由北亚利桑那大学的Lu Gan和独立研究者Xi Li创建,专注于外周血细胞的图像分析。该数据集包含1440个样本,分为训练、验证和测试集,通过严格的半自动标记和手动审核确保了标注的准确性和一致性。数据集的创建过程包括样本筛选、重新标记和数据整合,旨在提高血液细胞检测模型的准确性和泛化能力。TXL-PBC数据集主要应用于医学图像分析领域,特别是在血液细胞的自动检测和计数方面,有助于提高疾病诊断的准确性和效率。

The TXL-PBC dataset was created by Lu Gan from Northern Arizona University and independent researcher Xi Li, focusing on peripheral blood cell image analysis. This dataset includes 1440 samples divided into training, validation and test sets. The accuracy and consistency of its annotations are guaranteed through strict semi-automatic labeling and manual review. The dataset creation process covers sample screening, re-labeling and data integration, aiming to improve the accuracy and generalization ability of blood cell detection models. The TXL-PBC dataset is mainly applied in the field of medical image analysis, especially in the automatic detection and counting of blood cells, which helps to enhance the accuracy and efficiency of disease diagnosis.
提供机构:
北亚利桑那大学
创建时间:
2024-07-18
原始信息汇总

TXL-PBC 数据集

概述

TXL-PBC 数据集是一个综合性的细胞图像集合,通过对多个细胞数据集进行重新标注和整合而创建。该数据集的主要目标是从 BCCDBCD 数据集 进行样本缩减、重新标注和整合。随后,原始数据集与两个新的细胞数据集,即 PBC 数据集 Peripheral Blood Cells 和 Raabin-WBC 数据集 Raabin White Blood Cells 进行整合,创建了一个高质量、样本平衡的新数据集,称为 TXL-PBC 数据集。该数据集使用 Labelimg 工具进行半自动化标注,并使用 YOLOv8n 进行标注。它专门设计用于评估各种对象检测模型,特别是那些使用 YOLO 格式的模型。

内容

TXL-PBC 数据集分为训练集(train: 1008)、验证集(val: 288)和测试集(test: 144)。数据集包含三种标签:

  • RBC(红细胞)
  • WBC(白细胞)
  • Platelets(血小板)

数据集结构

数据集的组织结构如下:

TXL-PBC-Dataset/ ├── images/ │ ├── train/ │ │ ├── img1.jpg │ │ ├── img2.jpg │ │ └── ... │ ├── test/ │ │ ├── img1.jpg │ │ ├── img2.jpg │ │ └── ... │ └── val/ │ ├── img1.jpg │ ├── img2.jpg │ └── ... ├── labels/ │ ├── train/ │ │ ├── img1.txt │ │ ├── img2.txt │ │ └── ... │ ├── test/ │ │ ├── img1.txt │ │ ├── img2.txt │ │ └── ... │ └── val/ │ ├── img1.txt │ ├── img2.txt │ └── ... │ ├── classes.txt ├── data.yaml └── README.md

  • images/:包含训练、测试和验证子文件夹,分别包含相应的图像。
  • labels/:包含训练、测试、验证和类别子文件夹,分别包含相应的 YOLO 格式标注文件。
  • data.yaml:包含数据集配置,用于 YOLO。

许可证

该数据集在 MIT 许可证 下发布。

引用

如果您使用此数据集,请引用:Lu Gan, Xi Li TXL-PBC: a freely accessible labeled peripheral blood cell dataset arXiv:2407.13214.

搜集汇总
数据集介绍
main_image_url
构建方式
TXL-PBC数据集的构建是通过严格的手动标注、自动标注以及人工审核步骤,确保了标注的准确性和一致性。首先,对BCCD和BCD两个公开的数据集进行了样本删除、重新标注和整合。然后,引入了PBC和Raabin-WBC两个新的数据集,将所有数据进行整合,并随机排列和重命名,以确保样本的随机性和多样性。
特点
TXL-PBC数据集的特点在于其标注质量高、样本均衡且多样。与BCCD和BCD数据集相比,TXL-PBC在边界框区域分布和标签数量上都有显著优势,且通过YOLOv8n模型训练的结果显示,其性能远超其他两个数据集。
使用方法
使用TXL-PBC数据集时,研究者可以将其分为训练集、验证集和测试集,按照7:2:1的比例进行切割。训练集用于机器学习模型的训练,验证集用于调整模型参数以防止过拟合,测试集用于最终评估模型的性能。数据集已发布在Github上,可供研究者免费使用。
背景与挑战
背景概述
TXL-PBC数据集是一项由Northern Arizona University的Lu Gan和独立研究员Xi Li所进行的研究成果,旨在解决公共血细胞数据集BCCD和BCD中存在的标注错误、样本量不足和数据质量差等问题。通过对BCCD和BCD数据集的样本删除、重新标注和整合,并结合新的PBC和Raabin-WBC数据集,形成了一个高质量、样本平衡的新数据集,命名为TXL-PBC。该数据集包含1008个训练集、288个验证集和144个测试集,经过严格的手动标注、自动标注以及手动审核步骤,确保了标注的准确性和一致性。TXL-PBC数据集的创建,对于提高血细胞检测模型的准确性和实用性具有重要意义。
当前挑战
在构建TXL-PBC数据集的过程中,主要面临以下挑战:1)如何解决原始数据集中的标注错误问题;2)如何增加样本量以提高模型的泛化能力;3)如何确保数据质量,以提升研究结果的可靠性。具体来说,挑战包括:确保在自动标注过程中的准确性,处理样本间的重叠部分,以及保持标注的一致性。此外,数据集的构建还需要考虑到如何平衡和多样化样本,以及如何通过有效的标注工具和方法提高标注的效率和准确性。
常用场景
经典使用场景
TXL-PBC数据集的经典使用场景在于为血液细胞目标检测任务提供高质量、均衡且多样化的训练数据。该数据集整合了BCCD和BCD数据集的优势,同时引入了PBC和Raabin-WBC数据集,使得数据覆盖范围更广,标注更准确,为模型训练提供了坚实基础。
衍生相关工作
TXL-PBC数据集的发布促进了相关研究的深入,衍生出了一系列相关工作。研究者基于该数据集开发了多种血液细胞检测模型,并对比了不同模型在该数据集上的性能,为后续的研究提供了重要的参考和基础。
数据集最近研究
最新研究方向
TXL-PBC数据集的构建旨在解决现有血细胞数据集存在的标注错误、样本量不足和数据质量差等问题。该研究通过样本删除、重新标注和整合BCCD与BCD数据集,并结合PBC和Raabin-WBC数据集,形成了一个高质量、样本均衡的新数据集。研究结果显示,TXL-PBC数据集在标注质量、边界框区域分布和标签数量上均优于BCCD和BCD数据集,且基于YOLOv8n模型的检测结果也显著超越了原始数据集。该数据集的发布为血细胞目标检测任务、自动细胞图像标注和机器学习模型的研究提供了重要支持。
相关研究论文
  • 1
    TXL-PBC: a freely accessible labeled peripheral blood cell dataset北亚利桑那大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作