rishitdagli/cppe-5
收藏数据集卡片 for CPPE - 5
数据集描述
数据集摘要
CPPE - 5(医疗个人防护装备)是一个新的具有挑战性的数据集,旨在允许研究医疗个人防护装备的下属分类,这是其他关注广泛类别的热门数据集无法实现的。
该数据集的一些特点包括:
- 高质量的图像和注释(每张图像约4.6个边界框)
- 真实的图像,不同于当前任何此类数据集
- 大多数非标志性图像(便于轻松部署到真实环境)
支持的任务和排行榜
object-detection:该数据集可用于训练对象检测模型。此任务有一个活跃的排行榜,可以在 https://paperswithcode.com/sota/object-detection-on-cppe-5 找到。该任务的评估指标采用COCO检测评估标准,包括在不同尺度上从0.50到0.95的IoU阈值范围内的平均精度(AP)。
语言
英语
数据集结构
数据实例
一个数据点包含一个图像及其对象注释。
json { image_id: 15, image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=943x663 at 0x2373B065C18>, width: 943, height: 663, objects: { id: [114, 115, 116, 117], area: [3796, 1596, 152768, 81002], bbox: [ [302.0, 109.0, 73.0, 52.0], [810.0, 100.0, 57.0, 28.0], [160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0] ], category: [4, 4, 0, 0] } }
数据字段
image_id:图像IDimage:包含图像的PIL.Image.Image对象。注意,当访问图像列时:dataset[0]["image"],图像文件会自动解码。解码大量图像文件可能需要大量时间。因此,首先查询样本索引,然后是"image"列,即dataset[0]["image"]应始终优先于dataset["image"][0]。width:图像宽度height:图像高度objects:包含图像上存在的对象的边界框元数据的字典id:注释IDarea:边界框的面积bbox:对象的边界框(采用coco格式)category:对象的类别,可能的值包括Coverall(0),Face_Shield(1),Gloves(2),Goggles(3)和Mask(4)
数据分割
数据分为训练集和测试集。训练集包含1000张图像,测试集包含29张图像。
数据集创建
策划理由
从论文中:
通过CPPE-5数据集,我们希望促进在多个公共场所的应用研究,以自主识别个人防护装备(PPE)是否被穿戴,以及PPE的哪个部分被穿戴。该数据集的主要目标之一是捕捉更高比例的非标志性图像或非规范视角的对象。我们进一步希望看到该数据集在医疗场景中的高度使用,这将产生巨大的全球影响。
源数据
初始数据收集和规范化
CPPE-5数据集中的图像收集过程如下:
- 从Flickr获取图像:根据我们之前确定的对象类别,我们首先从Flickr下载图像,并将其保存为“原始”尺寸。在Flickr上,图像以多种不同尺寸(方形75、小240、大1024、超大4K等)提供,“原始”尺寸是作者上传图像的精确副本。
- 提取相关元数据:Flickr包含每个图像的可搜索元数据,我们提取以下相关元数据:
- Flickr上原始图像的直接链接
- 图像的宽度和高度
- 作者给图像的标题
- 图像上传的日期和时间
- 图像作者的Flickr用户名
- 图像作者的Flickr名称
- 图像作者的Flickr个人资料
- 图像的许可
- 原始图像的MD5哈希值
- 从Google Images获取图像:由于我们之前提到的原因,我们只从Google Images收集了非常少量的图像。对于这些图像,我们提取以下元数据:
- 原始图像的直接链接
- 图像的宽度和高度
- 原始图像的MD5哈希值
- 过滤不适当的图像:尽管在收集的图像中非常罕见,我们还使用Flickr和Google安全搜索的安全过滤器删除包含不适当内容的图像。
- 过滤近似相似的图像:然后我们使用GIST描述符删除数据集中的近似重复图像。
源语言生产者
该数据集的图像从Flickr和Google Images收集。
注释
注释过程
数据集分两个阶段进行标注:第一阶段包括标注416张图像,第二阶段包括标注613张图像。对于数据集中的所有图像,志愿者提供了以下表格:
| 项目 | 描述 |
|---|---|
| coveralls | Coveralls是医疗专业人员穿着的医院长袍,以提供患者和专业人员之间的屏障,这些通常覆盖专业医疗人员暴露的皮肤表面的大部分。 |
| mask | 口罩防止空气传播的感染在患者和/或治疗人员之间传播,通过阻挡从佩戴者的口鼻中释放的病原体(主要是细菌和病毒)的运动来防止感染的传播。 |
| face shield | 面罩旨在保护佩戴者的整个面部(或部分面部)免受飞行物体和道路碎片的危害,化学品飞溅(在实验室或工业中),或潜在的传染性物质(在医疗和实验室环境中)。 |
| gloves | 手套在医疗检查和过程中使用,以帮助防止护理人员和患者之间的交叉污染。 |
| goggles | 护目镜或安全眼镜是保护眼睛的眼部防护装备,通常封闭或保护眼睛周围的区域,以防止颗粒物、水或化学物质撞击眼睛。 |
以及正确标注的图像、错误标注的图像和不适用图像的示例。在标注任务之前,每个志愿者都进行了练习,以验证志愿者是否能够正确识别类别以及识别标注的图像是否正确、错误或不适用。标注过程首先涉及两个志愿者独立标注数据集中的图像。在任何情况下,如果边界框的数量不同,一个或多个边界框的标签不同,或者两个志愿者的标注结果差异足够大;第三个志愿者将两个标注结果合并,以得出一个正确标注的图像。在此步骤之后,一个志愿者验证边界框标注。通过这种方法标注数据集,我们确保所有图像都被准确标注并包含详尽的注释。因此,我们的数据集包含1029张高质量、主要非标志性、准确标注的图像。
注释者
在两个阶段中,都使用了众包技术,多个志愿者使用开源工具LabelImg标注数据集。
个人和敏感信息
[更多信息需要]
使用数据时的考虑
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Dagli, Rishit, 和 Ali Mustufa Shaikh.
许可信息
[更多信息需要]
引用信息
@misc{dagli2021cppe5, title={CPPE-5: Medical Personal Protective Equipment Dataset}, author={Rishit Dagli and Ali Mustufa Shaikh}, year={2021}, eprint={2112.09569}, archivePrefix={arXiv}, primaryClass={cs.CV} }
贡献
感谢@mariosasko添加此数据集。




