five

SODA: Site Object Detection dAtaset|建筑工地安全数据集|对象检测数据集

收藏
arXiv2022-02-19 更新2024-06-21 收录
建筑工地安全
对象检测
下载链接:
https://scut-scet-academic.oss-cnguangzhou.aliyuncs.com/SODA/2022.2/VOCv1.zip
下载链接
链接失效反馈
资源简介:
SODA是由华南理工大学土木与交通学院开发的大型建筑工地图像数据集,包含19,846张图像和286,201个对象,涵盖工人、材料、机器和布局四大类共15种对象。数据集通过无人机、手持单眼相机和工地监控视频等多种设备在不同工地条件、天气和施工阶段收集,经过筛选和处理后,由35名土木工程专业学生进行标注。SODA旨在为建筑行业的深度学习对象检测方法提供数据支持,解决建筑工地管理中依赖人工判断的问题,提高安全性和生产效率。
提供机构:
华南理工大学土木与交通学院
创建时间:
2022-02-19
AI搜集汇总
数据集介绍
构建方式
SODA数据集的构建始于对施工现场常见元素的分类,包括工人、材料、机械和布局四个大类,进一步细分为15个目标检测类别。数据采集采用多种设备,包括单目相机、无人机和施工现场监控视频,从不同角度和时间收集超过20,000张图像。在数据清洗过程中,剔除了重复、模糊、无关和涉及隐私的图像。数据标注采用VOC格式,确保标注质量。最终,SODA数据集包含19,846张图像和286,201个对象。
使用方法
SODA数据集的使用方法包括数据准备、模型训练和评估。首先,将数据集分为训练集和测试集。然后,选择合适的深度学习目标检测算法,如YOLO v3或YOLO v4,进行模型训练。训练过程中,可以使用数据增强技术提高模型的泛化能力。最后,使用mAP等指标评估模型的性能。此外,SODA数据集还可以用于开发新的深度学习目标检测算法,或作为其他相关研究的基准。
背景与挑战
背景概述
随着计算机视觉技术的快速发展,深度学习在物体检测领域的应用越来越广泛。然而,在建筑行业,尽管计算机视觉技术已经显示出巨大的潜力,例如在安全监控、进度分析和人员管理等方面的应用,但目前缺乏大规模、开源的图像数据集,这限制了物体检测算法的发展。为了解决这一问题,Duan等人于2022年构建了一个名为SODA的大型图像数据集,专门用于建筑工地。SODA数据集包含15种物体类别,分为工人、材料、机械和布局四大类。该数据集的构建过程包括类别选择、数据采集、数据清洗和数据标注。数据采集主要采用无人机、手持单目相机拍摄和施工现场监控视频(钩可视化)三种方法,共收集了超过20,000张图像。数据清洗包括去除重复图像、模糊图像、非目标图像以及隐私保护。数据标注采用VOC格式,并遵循严格的标注标准。统计结果表明,SODA数据集在多样性和数量方面具有优势。此外,使用基于深度学习的两个主流物体检测算法(YOLO v3/ YOLO v4)进行评估,结果显示该数据集在典型建筑场景中具有可行性,最高mAP达到81.47%。SODA数据集的创建为建筑行业深度学习物体检测方法的发展做出了贡献,并为该领域相应算法的进一步评估建立了性能基准。
当前挑战
尽管SODA数据集为建筑行业物体检测算法的研究提供了重要的资源,但仍然存在一些挑战。首先,数据集的类别和数量相对于其他深度学习社区的数据集来说仍然较小,需要进一步增加。其次,目前的标注任务仅为物体级别,仅标注了物体的边界框,而非像素级别,限制了数据集在更精确的物体分割算法上的应用。此外,数据集的构建仍然依赖于人工标注,这是一个耗时且劳动密集的过程。未来可以探索更多标注方法,如众包标注和自动标注。最后,数据采集过程也依赖于人工努力,尽管SODA获得的数据质量优于网络爬虫,但收集合适的建筑图像和视频仍然是一个耗时且劳动密集的过程。未来可以尝试与相关建筑行业权威机构合作,以丰富数据集。
常用场景
经典使用场景
SODA数据集被广泛用于深度学习在建筑工地的目标检测算法的开发与评估。通过包含工人、材料、机器和布局等15类对象,该数据集为研究人员提供了一个全面的测试平台,用以验证和优化目标检测算法的性能。例如,基于SODA数据集训练的YOLO v3/v4算法在典型建筑场景中实现了高达81.47%的mAP,展示了数据集的高效性和实用性。
解决学术问题
SODA数据集解决了建筑行业中缺乏大规模、开源目标检测数据集的问题,这对于数据密集型的深度学习算法至关重要。数据集的多样性和丰富性为深度学习目标检测方法的发展提供了有力支持,并为其在建筑行业的应用提供了性能基准。此外,SODA数据集也为建筑工地安全监控、施工进度分析、人员监控、应急响应和文明施工等领域的研究提供了新的可能性。
实际应用
在建筑行业中,SODA数据集的实际应用场景广泛,包括但不限于安全监控、施工进度分析、人员监控等。例如,通过SODA数据集训练的深度学习模型可以识别工人是否佩戴个人防护装备,从而提高工地安全管理水平。此外,该数据集还可以用于监测施工进度,通过识别材料位置和机器状态,为施工管理提供实时数据支持。
数据集最近研究
最新研究方向
SODA数据集在深度学习应用于建筑行业的对象检测方面取得了显著进展。该数据集为研究人员提供了丰富的图像资源,涵盖了工人、材料、机器和布局等15种对象类别,满足了建筑行业对特定图像数据集的需求。SODA数据集的发布,为深度学习对象检测算法在建筑领域的应用提供了新的方向和可能性,有助于提高建筑现场管理效率,降低安全事故风险。
相关研究论文
  • 1
    SODA: Site Object Detection dAtaset for Deep Learning in Construction华南理工大学土木与交通学院 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录