five

mask-wearing recognition dataset|口罩识别数据集|图像识别数据集

收藏
arXiv2022-10-17 更新2024-06-21 收录
口罩识别
图像识别
下载链接:
https://github.com/huh30/OpenDatasets
下载链接
链接失效反馈
资源简介:
本数据集名为mask-wearing recognition dataset,由中国联通创建,旨在通过精细化的数据集设计,提高口罩佩戴识别的准确性,减少误报率。数据集包含超过10000张来自75个不同实际应用场景的图像,涵盖了医院、学校等多种环境。创建过程中,数据集根据实际应用需求和数据特性,被细分为正样本、负样本和不确定样本三类。该数据集的应用领域主要集中在工业场景中,用于提升口罩识别系统的性能,解决因复杂场景导致的误报问题。
提供机构:
中国联通
创建时间:
2022-09-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建口罩佩戴识别数据集时,研究团队从75个实际应用场景中收集数据,包括医院、社区、学校等,通过现有的头部检测器提取头部图像,最终构建了超过10,000张口罩佩戴识别图像。这些图像涵盖了不同角度、光照、尺寸和质量的佩戴和不佩戴口罩的头部图像。数据集通过多轮人工标注,根据主流数据集构建方法分为正样本和负样本。此外,研究团队还根据数据特征和应用需求,将易导致误报的样本(如不规则佩戴、低质量图像、类似口罩的遮挡物)分类为不确定类别,形成最终的训练集。
使用方法
使用该数据集时,研究人员可以利用其精细分类的特性,训练出具有高识别精度和低误报率的模型。通过将数据集分为正样本、负样本和不确定类别,模型能够更好地处理复杂场景中的识别任务。此外,数据集的开源性质使得研究社区能够广泛应用和进一步优化该数据集,推动口罩佩戴识别技术的发展。
背景与挑战
背景概述
随着深度学习技术在工业场景中的广泛应用,如何降低误报率(False Alarm, FA)成为了一个亟待解决的问题。传统的网络架构优化和参数调整方法虽然在学术界占据主导地位,但往往忽视了应用场景中数据的基本特征,导致在新场景中误报率增加。为此,中国联通的研究团队提出了一种基于工业应用驱动的细粒度数据集设计新范式。该方法根据数据和应用需求灵活选择正负样本集,并将剩余样本作为不确定样本集加入训练集,最终形成至少包含三类样本的数据集。以口罩佩戴检测为例,研究团队收集了超过10,000张涵盖多种应用场景的口罩佩戴识别样本,实验结果表明,与传统数据集设计方法相比,该方法显著降低了误报率,并有望成为一种新的数据中心AI范式。
当前挑战
在构建口罩佩戴识别数据集的过程中,主要面临的挑战包括:1) 数据集的细粒度设计,即如何根据实际应用场景和数据特征灵活划分正负样本集及不确定样本集;2) 复杂场景下的数据采集,如不同光照、角度和姿态下的口罩佩戴情况,这些因素增加了数据集的构建难度;3) 误报率的降低,特别是在处理不规则佩戴、低质量和类似口罩遮挡的样本时,模型容易产生误报。这些挑战不仅影响了数据集的质量,也直接关系到模型在实际应用中的表现。
常用场景
经典使用场景
在计算机视觉领域,口罩佩戴识别数据集被广泛应用于开发和优化口罩检测算法。该数据集通过收集超过10,000张涵盖多种应用场景的口罩佩戴图像,为研究人员提供了一个丰富的资源库。经典的使用场景包括但不限于:在医院、学校、办公室等公共场所中,通过摄像头实时监控和识别人员的口罩佩戴情况,以确保公共卫生安全。此外,该数据集还可用于训练和验证深度学习模型,以提高口罩佩戴检测的准确性和鲁棒性。
解决学术问题
口罩佩戴识别数据集解决了在实际应用中高误报率(False Alarm Rate, FAR)的问题。传统的数据集设计方法往往忽视了数据本身的特性和实际应用场景的需求,导致在新场景中模型的误报率增加。该数据集通过精细设计,将数据分为正样本、负样本和不确定样本三类,有效降低了模型的误报率。这一方法不仅提升了口罩佩戴检测的准确性,还为其他类似的应用场景提供了新的数据集设计范式,具有重要的学术研究价值和实际应用意义。
实际应用
在实际应用中,口罩佩戴识别数据集被广泛应用于各种需要监控口罩佩戴情况的场景。例如,在疫情期间,医院、机场、学校等公共场所通过部署基于该数据集训练的口罩检测系统,实时监控人员的口罩佩戴情况,确保公共卫生安全。此外,该数据集还可用于工业生产中的安全监控,如在工厂中监控工人是否佩戴安全帽和手套,以防止工伤事故的发生。通过这些实际应用,该数据集不仅提升了公共安全,还推动了相关技术的产业化进程。
数据集最近研究
最新研究方向
在口罩佩戴识别领域,最新的研究方向聚焦于应用驱动的细粒度数据集设计。这一方法通过深入挖掘数据本身的特征,并根据实际应用需求灵活选择正负样本集,同时将剩余样本作为不确定样本集加入训练集,从而构建至少包含三类样本的训练集。这种方法显著降低了误报率(FA),并在多个工业应用场景中展现出优越的性能。通过精细化的数据集设计,研究者们不仅提升了模型的识别精度,还为数据中心化的AI范式提供了新的思路,有望在复杂工业环境中推广应用。
相关研究论文
  • 1
    Data-Centric AI Paradigm Based on Application-Driven Fine-Grained Dataset Design中国联通 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录