SafetyHelmetWearing-Dataset|安全帽检测数据集|目标检测数据集
收藏数据集概述
数据集名称
- SafetyHelmetWearing-Dataset (安全帽佩戴检测数据集)
数据集内容
- 图像数量:7581张
- 标注对象:
- 正样本(佩戴安全帽):9044个
- 负样本(未佩戴或普通头部):111514个
- 数据来源:
- 正样本:来自Google或Baidu,并手动使用LabelImg标注
- 负样本:部分来自SCUT-HEAD,经过修正以适应Pascal VOC格式
数据集格式
- 标注格式:Pascal VOC格式
- 对象类别:
- 正类:"hat"
- 负类:"person"
数据集下载
- 数据集链接:
预训练模型
- 模型下载链接:BaiduDrive
- 模型性能(mAP):
- darknet:88.5
- mobile1.0:86.3
- mobile0.25:75.0
使用指南
-
数据集结构:
---VOC2028
---Annotations
---ImageSets
---JPEGImages -
模型测试:
- 方法一:下载模型后运行
python test_yolo.py
- 方法二:使用MXNet符号进行推理,运行
python test_symbol.py
- 方法一:下载模型后运行
训练指南
- 设置数据集路径:在
train_yolo.py
中设置get_dataset
函数 - 训练示例:运行
python train_yolo.py --batch-size 4 -j 4 --warmup-epochs 3
注意事项
- 训练问题:可能遇到梯度爆炸问题,建议增加预热周期或使用较小的学习率
- 性能提升:使用多核CPU可以加快数据加载速度,提高训练效率

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
人民日报语料库
该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录