five

OI-PBC-Dataset

收藏
arXiv2025-09-29 更新2025-10-01 收录
下载链接:
https://github.com/Mohamad-AbouAli/OI-PBC-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的带注释的血细胞检测和分类数据集,包括12种外周血细胞(PBC)类别的16,891张图像,以及红细胞类别,所有图像都经过精心重新注释,用于目标检测任务。数据集总共包含298,850个注释的细胞。该数据集为外周血细胞检测和分类的研究提供了宝贵的资源。

This is a large-scale annotated dataset for blood cell detection and classification, comprising 16,891 images covering 12 peripheral blood cell (PBC) categories plus the red blood cell category. All images have been meticulously re-annotated for object detection tasks, and the dataset contains a total of 298,850 annotated cells. This dataset provides a valuable resource for research on peripheral blood cell detection and classification.
提供机构:
巴斯克大学,勒班国际大学(LIU),贝鲁特国际大学
创建时间:
2025-09-29
原始信息汇总

外周血细胞检测数据集概述

数据集基本信息

  • 数据集名称: OI-PBC-Dataset
  • 图像数量: 16,891张
  • 标注细胞数量: 298,850个
  • 细胞类别数: 12类

研究背景

  • 研究主题: YOLOv11在外周血细胞检测中的综合基准测试
  • 研究目标: 评估YOLOv11模型在12种外周血细胞类型自动检测和分类中的性能

数据集特点

  • 大规模标注数据集
  • 涵盖12种外周血细胞类型
  • 适用于血液学研究的公开数据集

性能表现

  • 最佳模型: YOLOv11-Medium
  • 最优性能: mAP@0.5达到0.934
  • 数据分割: 8:1:1分割比例在所有模型中表现更优

技术指标

  • 高精度: 罕见细胞检测精度达92.6%
  • 优秀召回率: 93.9%召回率,最小化假阴性
  • 稳健性能: 在所有12个细胞类别中表现一致

临床应用建议

  • 推荐模型: YOLOv11-Medium
  • 推荐数据分割: 8:1:1
  • 适用场景: 诊断工作流程集成

相关资源

  • 论文链接: https://arxiv.org/abs/2509.24595
  • 代码仓库: https://github.com/ultralytics/ultralytics
搜集汇总
数据集介绍
main_image_url
构建方式
在血液细胞形态学分析领域,OI-PBC数据集通过系统化重构流程实现了从分类标注到检测标注的转换。该数据集基于CellaVision DM96血液分析仪采集的原始图像,经过专业病理学家对16,891张外周血涂片图像进行精细标注,将原有8类细胞类型扩展为包含红细胞在内的12类细胞体系。标注过程中采用MakeSense.ai工具对每个细胞实例绘制边界框,并通过交叉验证确保标注一致性,最终生成包含298,850个细胞实例的高质量检测数据集。数据格式兼容PASCAL VOC、YOLO和CSV三种标准格式,为模型训练提供多维度支持。
使用方法
在血液学人工智能研究实践中,该数据集支持两种标准化数据划分策略(7:2:1与8:1:1)以满足不同训练需求。研究人员可采用YOLO格式文本文件直接接入主流检测框架进行端到端训练,或通过PASCAL VOC格式实现跨平台模型开发。数据集支持多尺度训练策略,原始图像分辨率保持360×363像素,同时兼容现代检测模型常用的640×640输入尺寸。验证阶段建议采用mAP@0.5与mAP@0.5:0.95双重指标评估模型性能,并结合精确率、召回率和F1分数全面分析模型在各类细胞上的检测效果。
背景与挑战
背景概述
外周血细胞分析在血液学诊断中具有关键作用,传统人工镜检方法存在主观性强、效率低下的局限性。2025年,由巴斯克大学与黎巴嫩国际大学联合团队发布的OI-PBC数据集,通过系统性重构原始外周血细胞图像数据,构建了包含16,891张图像、涵盖12类血细胞及红细胞类别的检测数据集,共标注29.8万个细胞实例。该数据集采用CellaVision DM96血液分析仪采集,通过临床病理学家精细标注与MakeSense.ai工具重新标注,将分类任务转化为目标检测框架,显著提升了细胞定位与分类的精准度,为血液学人工智能研究提供了重要基准。
当前挑战
该数据集致力于解决血细胞显微图像中多类别细粒度检测的核心难题,尤其面临形态相似细胞(如带状与分叶中性粒细胞、不同阶段幼稚粒细胞)的区分挑战,以及罕见细胞类别(如嗜碱性粒细胞占比仅0.4%)的严重数据不平衡问题。在构建过程中,团队需克服原始图像中细胞形态多样性高、染色差异导致的特征不一致性,并通过人工重新标注29.8万个细胞边界框以保障标注质量,同时设计分层采样策略应对类别分布偏斜,确保模型在临床场景下的泛化能力。
常用场景
经典使用场景
在血液学诊断领域,OI-PBC-Dataset作为大规模外周血细胞检测数据集,其经典应用场景聚焦于自动化血细胞识别系统的开发与验证。该数据集通过精细标注的16,891张图像和298,850个细胞实例,为研究人员提供了评估目标检测模型在复杂细胞形态识别中性能的标准化平台。特别是在血细胞亚型分类任务中,数据集涵盖的12种细胞类别为模型区分形态相似细胞(如带状与分叶核中性粒细胞)提供了重要基准。
解决学术问题
该数据集有效解决了血液细胞分析中多个关键学术难题。通过提供大规模精细标注数据,显著缓解了血细胞检测领域高质量数据集稀缺的问题,为模型泛化能力研究奠定基础。其涵盖的12种细胞类别突破了传统数据集仅包含3-4种主要细胞类型的局限,支持细粒度细胞分类研究。针对临床常见的类间不平衡问题,数据集通过分层采样策略为模型鲁棒性评估提供了标准框架,推动了血液细胞检测从粗粒度向精细化诊断的技术演进。
实际应用
在临床实践层面,该数据集支撑的检测系统可直接应用于医院检验科的自动化血涂片分析。基于YOLOv11架构的模型可实现实时细胞检测,显著提升血常规检查效率,将传统人工镜检数小时的工作压缩至分钟级。在偏远地区医疗场景中,此类系统能够辅助基层医生完成复杂细胞形态识别,缓解专业病理医师资源不足的困境。此外,系统的高召回率特性使其在白血病筛查等关键应用中能有效降低漏诊风险,为早期诊断提供可靠技术支持。
数据集最近研究
最新研究方向
在血液细胞形态学分析领域,OI-PBC数据集的推出标志着外周血涂片自动检测研究进入精细化阶段。该数据集通过重新标注12类血细胞并引入29.8万个细胞实例,为细粒度检测任务提供了关键支撑。前沿研究聚焦于YOLOv11架构的全面评估,系统比较了从Nano到XLarge五种变体在两种数据划分策略下的性能表现。实验表明YOLOv11-Medium在8:1:1划分下达到0.934的mAP@0.5,在检测精度与计算效率间实现帕累托最优。这一发现挑战了医疗AI中“模型越大越优”的传统认知,为临床部署提供了实证依据。当前研究热点集中于通过数据增强技术解决类别不平衡问题,并探索Transformer与CNN的混合架构以提升对形态相似细胞(如幼稚粒细胞亚型)的区分能力。该工作为标准化血细胞分析、提升诊断可重复性奠定了技术基础,推动血液学智能诊断向实用化迈进。
相关研究论文
  • 1
    Comprehensive Benchmarking of YOLOv11 Architectures for Scalable and Granular Peripheral Blood Cell Detection巴斯克大学,勒班国际大学(LIU),贝鲁特国际大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作