five

yunusskeete/cppe5|医疗个人防护装备数据集|对象检测数据集

收藏
hugging_face2023-12-03 更新2024-03-04 收录
医疗个人防护装备
对象检测
下载链接:
https://hf-mirror.com/datasets/yunusskeete/cppe5
下载链接
链接失效反馈
资源简介:
CPPE - 5(医疗个人防护装备)是一个新的具有挑战性的数据集,旨在允许研究医疗个人防护装备的次级分类,这是其他专注于广泛类别的主流数据集所无法实现的。该数据集的一些特点包括:高质量的图像和注释(每张图像约4.6个边界框)、与现有此类数据集不同的真实生活图像、以及大多数非标志性图像(便于部署到现实世界环境中)。数据集主要用于对象检测任务,并采用了COCO检测评估标准。

CPPE - 5(医疗个人防护装备)是一个新的具有挑战性的数据集,旨在允许研究医疗个人防护装备的次级分类,这是其他专注于广泛类别的主流数据集所无法实现的。该数据集的一些特点包括:高质量的图像和注释(每张图像约4.6个边界框)、与现有此类数据集不同的真实生活图像、以及大多数非标志性图像(便于部署到现实世界环境中)。数据集主要用于对象检测任务,并采用了COCO检测评估标准。
提供机构:
yunusskeete
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CPPE - 5
  • 数据集类型: 单语种(英语)
  • 数据集大小: 1K<n<10K
  • 许可证: 未知
  • 任务类别: 目标检测
  • 数据集标签: 医疗个人防护装备检测

数据集结构

特征

  • image_id: 图像ID,数据类型为int64
  • image: 图像,数据类型为image
  • width: 图像宽度,数据类型为int32
  • height: 图像高度,数据类型为int32
  • objects: 对象信息,包含以下子特征:
    • id: 对象ID,数据类型为int64
    • area: 对象面积,数据类型为int64
    • bbox: 对象边界框,数据类型为float32,长度为4
    • category: 对象类别,数据类型为class_label,包含以下类别:
      • 0: Coverall
      • 1: Face_Shield
      • 2: Gloves
      • 3: Goggles
      • 4: Mask

数据分割

  • train: 训练集,包含779个样本,大小为240481257字节
  • test: 测试集,包含249个样本,大小为4172715字节

数据集创建

数据收集与标注

  • 数据来源: 从Flickr和Google Images收集
  • 标注过程: 通过众包方式,使用LabelImg工具进行标注
  • 标注者: 多名志愿者

数据集特点

  • 高质量图像和标注: 平均每张图像有4.6个边界框
  • 真实场景图像: 不同于其他现有数据集
  • 非典型图像占多数: 便于实际应用部署

使用注意事项

  • 任务支持: 支持目标检测任务,采用COCO检测评估标准,包括平均精度(AP)在不同IoU阈值下的评估
  • 语言: 英语
AI搜集汇总
数据集介绍
main_image_url
构建方式
CPPE-5数据集的构建主要采用众包的方式进行标注。首先从Flickr和Google Images上下载原始图像,并提取相关的图像元数据。然后,通过使用安全过滤器过滤不适当的内容,并移除近似重复的图像。标注过程分为两个阶段,每个阶段的图像都由志愿者独立标注,并通过LabelImg工具进行。在标注过程中,若出现标注不一致的情况,则由第三个志愿者协调解决,以确保标注的准确性。
特点
CPPE-5数据集的特点在于其专注于医疗个人防护装备的下级分类研究,提供了高质量、非图标性、详尽标注的图像。该数据集包含约4.6个边界框 per 图像,且图像来源均为真实生活场景,有利于模型在实际环境中的应用。此外,数据集以英语为语言,分为训练集和测试集,共计1029张图像。
使用方法
使用CPPE-5数据集时,用户可以将其应用于对象检测任务中,例如训练一个模型来自动识别个人防护装备。数据集提供了图像和相应的对象标注信息,包括图像ID、图像本身、宽度、高度以及对象信息(包括ID、区域、边界框和类别)。用户可以从HuggingFace的仓库中下载数据集,并根据数据集的 splits 进行训练和测试。
背景与挑战
背景概述
CPPE-5(医疗个人防护装备)数据集,创建于2021年,由Rishit Dagli和Ali Mustufa Shaikh等研究人员发起,旨在研究医疗个人防护装备的细分分类,该数据集的构建填补了现有数据集在细粒度分类方面的空白。CPPE-5数据集包含了高质量、真实场景下的图像,以及详尽的注释信息,其数据规模适中,包含训练集和测试集,分别由1000张和29张图像组成。该数据集的创建,对于促进医疗场景下个人防护装备的自动识别具有重要意义,其研究成果在国际上具有广泛的影响力。
当前挑战
该数据集在构建过程中遇到了如下挑战:1)数据收集的挑战,研究人员从Flickr和Google Images上收集图像,并对图像进行筛选和去重处理;2)注释过程中的挑战,采用众包方式进行图像注释,需要确保注释质量和一致性;3)数据集面临的挑战还包括如何平衡不同类别样本的分布,以及如何处理可能存在的个人隐私信息。此外,在研究领域问题方面,数据集面临的挑战是如何提高对象检测算法在医疗个人防护装备细分分类中的准确性和鲁棒性。
常用场景
经典使用场景
在医学防护装备领域,CPPE-5数据集的经典使用场景是训练对象检测模型,以识别医疗场所中个人防护装备(PPE)的存在及其类别。该数据集通过提供高质量的图像和详尽的边界框注释,使得模型能够精确区分不同种类的PPE,如防护服、面罩、手套、护目镜和口罩。
实际应用
在实际应用中,CPPE-5数据集可用于开发智能监控系统,自动识别医院和其他医疗设施中的工作人员是否正确穿戴了个人防护装备。此外,它还可以应用于PPE库存管理,确保医疗机构有足够的防护设备供应。
衍生相关工作
基于CPPE-5数据集,研究人员已经开展了一系列相关工作,包括但不限于开发用于实时监测的深度学习模型,以及探索细粒度分类技术在医疗图像分析中的应用。这些衍生工作进一步扩展了数据集的用途,并推动了医疗领域人工智能技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

The Global Forest Watch (GFW)

The Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。

globalforestwatch.org 收录