edge_dataset_make
收藏github2025-05-06 更新2025-05-07 收录
下载链接:
https://github.com/bxod/edge_dataset_make
下载链接
链接失效反馈官方服务:
资源简介:
该仓库指导如何为EDGE Computing课程项目准备一个自定义数据集,使用自动标注技术避免手动标注每张图像。数据集旨在检测:未戴头盔的滑板车骑手、戴头盔的滑板车骑手以及两人共乘同一滑板车的情况。
This repository guides on preparing a custom dataset for the EDGE Computing course project, utilizing automatic annotation techniques to avoid manual annotation of each image. The dataset is designed to detect scenarios such as skateboard riders without helmets, riders with helmets, and instances of two people riding on the same skateboard.
创建时间:
2025-05-06
原始信息汇总
数据集概述
数据集目标
构建一个用于检测电动滑板车骑行者头盔佩戴情况的PASCAL VOC格式数据集,包含以下三个类别:
- no_helmet:未佩戴头盔的骑行者
- with_helmet:佩戴头盔的骑行者
- two_person:两人共乘同一滑板车
数据收集
- 图像来源:
- 使用Open Camera Android应用拍摄,分辨率为720×960,格式为JPG
- 从互联网下载400张补充图像
- 图像数量:
- no_helmet:1,034张
- with_helmet:1,615张
- two_person:762张
- 图像要求:
- 格式:JPG
- 分辨率范围:512×512至1080×1080像素
数据处理流程
-
图像整理:
- 按类别存放在独立文件夹中
- 使用
shuffler.py脚本对图像进行随机重命名(格式:{class_name}_{order}.jpg)
-
自动标注:
- 依赖库:ultralytics、pillow
- 使用
xml_maker.py生成PASCAL VOC格式的XML标注文件 - 需确保CUDA环境(GPU加速)
注意事项
- 类别数量要求:至少4类(不足时需添加虚拟类)
- 最终数据集需按PASCAL VOC标准划分为train/test/validation子集
包含脚本
- img_downloader.py:网络图像批量下载
- shuffler.py:图像重命名与混洗
- xml_maker.py:自动标注生成
搜集汇总
数据集介绍

构建方式
在边缘计算领域,构建高质量的数据集是模型训练的基础。edge_dataset_make数据集采用半自动化流程构建,首先通过Open Camera应用采集3000张720×960分辨率的图像,并补充400张网络下载图像。所有图像按三类场景(无头盔骑行、戴头盔骑行及双人骑行)分类存储,经shuffler.py脚本进行随机排序和标准化命名。关键创新在于运用YOLO模型实现自动标注,通过xml_maker.py生成PASCAL VOC格式的XML标注文件,显著降低人工标注成本。
特点
该数据集在智能交通场景具有显著特色,涵盖三类典型电动滑板车骑行场景,图像分辨率严格控制在512×512至1080×1080之间以适配主流检测模型。数据分布呈现真实世界多样性,其中戴头盔样本占比最高(1615张),双人骑行样本最少(762张),这种非均衡分布恰能反映实际道路场景。所有标注文件遵循标准PASCAL VOC格式,且通过脚本自动校验图像尺寸与标注一致性,确保数据质量可靠。
使用方法
使用者需先配置Python环境并安装ultralytics等依赖库,通过命令行工具执行shuffler.py实现数据预处理。标注阶段调用xml_maker.py自动生成XML文件,建议在CUDA环境下加速处理。最终数据集可按照PASCAL VOC标准划分为train/val/test子集,特别值得注意的是当类别数不足4类时需添加虚拟类别以满足格式要求。配套提供的img_downloader.py脚本支持持续扩展数据集规模。
背景与挑战
背景概述
edge_dataset_make数据集诞生于边缘计算技术蓬勃发展的时代背景下,由EDGE Computing课程团队于近年构建完成。该数据集聚焦于电动滑板车骑行场景下的安全监测问题,旨在通过计算机视觉技术自动识别三类关键目标:未佩戴头盔的骑行者、佩戴头盔的骑行者以及双人共乘行为。数据采集采用智能手机拍摄与网络爬取相结合的方式,共整合3400余张经过严格筛选的图像样本,其标注流程创新性地引入了半自动标注技术以提升效率。作为首个针对微型交通工具安全规范构建的专项数据集,它为边缘设备上的轻量化目标检测模型开发提供了重要基准。
当前挑战
该数据集首要解决的是边缘计算环境下实时安全监测的算法挑战,包括小尺寸目标检测、遮挡场景识别以及光照条件变化等复杂场景的鲁棒性要求。在构建过程中,研究团队面临着多维度挑战:图像采集需平衡场景多样性与隐私保护要求;自动标注环节存在YOLO模型对密集小目标漏检的风险;类别不平衡问题尤为突出,其中双人共乘类别的样本量仅为其他类别的50%。此外,为适配边缘设备算力限制,所有图像必须经过严格的分辨率标准化处理,这对标注精度与模型泛化能力提出了更高要求。
常用场景
经典使用场景
在边缘计算和计算机视觉领域,edge_dataset_make数据集为研究者和开发者提供了一个高效的工具,用于自动标注和分类电动滑板车骑行者图像。该数据集最经典的使用场景包括训练和验证目标检测模型,特别是在识别骑行者是否佩戴头盔以及是否双人骑行等具体任务上。通过自动标注技术,该数据集显著减少了人工标注的工作量,使得研究者能够更专注于模型优化和算法改进。
解决学术问题
edge_dataset_make数据集解决了目标检测领域中数据标注成本高昂和效率低下的问题。通过自动标注技术,研究者可以快速生成高质量的标注数据,从而加速模型训练和验证过程。此外,该数据集还针对电动滑板车骑行场景中的特定问题(如头盔佩戴检测和双人骑行识别)提供了专门的标注数据,填补了相关研究领域的空白,为边缘计算环境下的实时目标检测提供了有力支持。
衍生相关工作
edge_dataset_make数据集衍生了多项经典研究工作,特别是在边缘计算和目标检测的交叉领域。基于该数据集,研究者开发了多种轻量级目标检测模型,如优化后的SSDLite网络,以适应边缘设备的计算资源限制。此外,该数据集还被用于探索自动标注技术在复杂场景下的泛化能力,推动了半监督学习和弱监督学习在目标检测中的应用。
以上内容由遇见数据集搜集并总结生成



