CPPE-5 (Medical Personal Protective Equipment)

Name: CPPE-5 (Medical Personal Protective Equipment)
Creator: 多伦多大学计算机科学系
Published: 2023-02-18 16:51:42
License: 暂无描述

arXiv2023-02-18 更新2024-06-21 收录

下载链接：

https://git.io/cppe5-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CPPE-5数据集是由多伦多大学计算机科学系创建的，专注于医疗个人防护装备的次级分类。该数据集包含1029张图像，主要来源于Flickr和Google Images，每张图像都标注了边界框和正标签，涵盖了5个对象类别：防护服、面罩、手套、口罩和护目镜。数据集的创建旨在帮助机器自动识别个人防护装备的具体位置，特别是在复杂场景中的应用。此外，数据集强调收集非典型图像，确保所有图像都是真实生活中的场景，不同于其他现有数据集。CPPE-5数据集的应用领域包括在多个公共场所自动识别是否佩戴了PPE套装以及套装的哪些部分被佩戴，尤其在医疗场景中具有重要意义。

CPPE-5 Dataset was developed by the Department of Computer Science, University of Toronto, and focuses on the secondary classification of medical personal protective equipment (PPE). This dataset consists of 1029 images primarily sourced from Flickr and Google Images. Each image is annotated with bounding boxes and positive labels, covering five object categories: protective clothing, face shields, gloves, masks, and goggles. The dataset is constructed to enable machines to automatically identify the specific locations of personal protective equipment, especially for applications in complex scenarios. Additionally, the dataset prioritizes collecting atypical images to ensure all included images are real-life scenes, differentiating it from other existing datasets. The application fields of the CPPE-5 Dataset include automatically recognizing whether PPE kits are worn and which parts of the kits are worn across various public places, which is particularly significant in medical scenarios.

提供机构：

多伦多大学计算机科学系

创建时间：

2021-12-16

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量数据集的构建是推动算法发展的关键。CPPE-5数据集的构建过程体现了严谨的科学方法，其图像主要从Flickr平台获取，辅以少量来自Google Images的样本，旨在收集大量非标志性图像以反映真实复杂场景。通过众包技术，由多名志愿者使用LabelImg工具进行标注，并采用双重独立标注加第三方复核的机制，确保4698个边界框标注的准确性与一致性。整个流程还包含基于GIST描述符的近重复图像过滤，最终形成了包含1029张高质量图像的数据集。

特点

该数据集的核心特点在于其专注于医疗个人防护装备这一细分领域，涵盖防护服、面罩、手套、口罩和护目镜五类对象，填补了现有公开数据集中缺乏医疗PPE细粒度分类的空白。与常见数据集不同，CPPE-5强调非标志性图像的主导地位，这些图像呈现多对象共存的自然复杂场景，平均每图包含4.57个标注，更贴近实际应用环境。数据集的构建严格遵循真实性原则，所有图像均为真实拍摄，避免了人工合成对象可能引入的偏差，从而提升了模型在现实场景中的泛化能力。

使用方法

在应用层面，CPPE-5数据集主要用于目标检测任务的模型训练与评估。研究者可利用其提供的边界框标注，训练如Faster R-CNN、YOLO等经典或前沿检测模型，以实现在医疗等公共场所自动识别个人防护装备穿戴情况的具体应用。数据集已按1029张训练图像和100张测试图像划分，支持使用MMDetection等开源工具箱进行实验复现。通过在该数据集上训练和测试，不仅能为医疗PPE检测建立性能基准，还能推动复杂场景下细粒度目标检测算法的研究与发展。

背景与挑战

背景概述

在计算机视觉领域，深度学习技术的蓬勃发展极大地推动了目标检测任务的进步，而高质量、大规模标注数据集是算法创新的关键驱动力。2023年，多伦多大学的Rishit Dagli与Postman公司的Ali Mustufa Shaikh共同发布了CPPE-5（医疗个人防护装备）数据集，旨在填补医疗防护装备细粒度目标检测领域的数据空白。该数据集聚焦于COVID-19疫情期间至关重要的医疗防护装备自动识别问题，包含防护服、面罩、手套、口罩和护目镜五类对象，共计1029张图像与4698个标注实例。其核心研究价值在于首次实现了对医疗防护装备的细粒度（从属类别）检测，突破了传统通用数据集（如ImageNet、COCO）仅关注宽泛类别的局限，为公共卫生安全监控与智能医疗辅助系统提供了关键数据支撑。

当前挑战

CPPE-5数据集致力于解决医疗场景中个人防护装备的细粒度目标检测问题，其核心挑战在于模型需在复杂场景中准确识别并定位多类防护装备，这些装备常因遮挡、形变、光照变化及多样穿戴方式而难以检测。构建过程中的挑战尤为显著：首先，数据收集需确保图像以非标志性场景为主，强调自然上下文与多对象共存，这要求从Flickr等平台筛选大量真实场景图像，避免使用人工合成的标志性图像；其次，标注过程通过众包与多轮验证保证质量，需处理类别不平衡（如手套与口罩标注量较大）以及小尺寸对象（如护目镜）的精准定位难题；此外，数据集的规模相对有限，可能影响深度模型的泛化能力，且需持续扩展以覆盖更广泛的医疗防护场景与装备变体。

常用场景

经典使用场景

在计算机视觉领域，医疗个人防护装备的自动检测是公共卫生安全的重要课题。CPPE-5数据集通过提供覆盖防护服、面罩、手套、口罩和护目镜五类医疗防护装备的真实场景图像，为研究者构建和评估目标检测模型奠定了数据基础。该数据集特别强调非标志性图像的收集，即包含多个对象、背景复杂且视角多样的自然场景图像，这使模型能够学习更具泛化能力的特征表示，从而在真实医疗环境中实现精准的装备识别与定位。

衍生相关工作

基于CPPE-5数据集，研究者已开展多项经典工作，主要集中在目标检测模型的优化与适应性改进上。例如，论文中评估了Faster R-CNN、YOLOv3、SSD等基线模型在该数据集上的性能，并进一步测试了RepPoints、Sparse R-CNN、Deformable DETR等前沿检测架构。这些工作不仅建立了该数据集的性能基准，也促进了针对医疗防护装备检测的专用算法探索，如结合注意力机制或改进边界框回归策略，以应对复杂场景中小目标、遮挡及多尺度变化等挑战。

数据集最近研究