five

DOTA v1.5|物体检测数据集|航空图像分析数据集

收藏
github2024-07-15 更新2024-07-16 收录
物体检测
航空图像分析
下载链接:
https://github.com/davidgeorgewilliams/Aerial-YOLO-DOTA
下载链接
链接失效反馈
资源简介:
DOTA v1.5数据集用于航空和卫星图像中的物体检测,支持旋转边界框,适用于YOLOv9模型。
创建时间:
2024-07-14
原始信息汇总

Aerial-YOLO-DOTA: 先进航空影像目标检测

数据集

我们准备了一个易于使用的综合DOTA v1.5数据集,包括适合YOLOv9使用的标签。该数据集可在我们的Google Drive上获取。

实验结果与分析

100e-16b-0.01lr (最佳表现模型)

归一化混淆矩阵

最佳表现模型的归一化混淆矩阵显示了几个有趣的特征:

  1. 强对角线表现:许多类别显示出高真正率,表明沿对角线的深蓝色方块。网球场(0.89)、飞机(0.86)和篮球场(0.69)的分类尤其好。
  2. 主题一致的误分类:非对角线错误在视觉和上下文相似性方面具有直观意义:
    • 船只有时被误分类为港口(0.20),反映了它们在场景中的共同出现。
    • 小型车辆偶尔被误分类为大型车辆(0.17),可能是由于航空影像中的尺度模糊。
    • 飞机和直升机之间存在一些相互混淆(直升机被分类为飞机的比例为0.29),这是由于它们共同的空中特性。
  3. 体育设施混淆:类似的体育设施之间存在一些误分类,例如足球场被误认为是其他类型的球场。
  4. 背景类别交互:“背景”类别与其他类别有显著交互,特别是桥梁(0.84)和集装箱起重机(1.00)。这表明在某些场景中区分这些结构与背景存在挑战。
  5. 无严重错误:值得注意的是,没有严重误分类(例如,飞机被误认为船只),表明模型已经学习了每个类别的意义特征。
  6. 特定类别的挑战:某些类别如“环岛”(0.33)和“小型车辆”(0.26)显示出较低的真正率,表明它们可能从额外的训练数据或特征工程中受益。

总体而言,混淆矩阵反映了一个模型,该模型已经学会了以上下文和主题上合理的方式区分类别,错误主要发生在视觉或功能上相似的对象类别之间。

F1分数曲线

F1分数曲线展示了模型在不同置信度阈值下的性能,揭示了其行为和有效性的关键见解。总体F1分数在置信度阈值为0.202时达到0.54,表明在精确度和召回率之间达到了最佳平衡。

精确度曲线

精确度曲线表明,随着置信度阈值的增加,所有类别的精确度都有所提高,这是预期的行为。这表明随着置信度的增加,模型的预测在所有类别中变得更加准确。

精确度-召回率曲线

精确度-召回率曲线展示了在不同阈值下精确度和召回率之间的权衡,揭示了模型在航空影像检测任务中的性能。关键发现包括:

  1. 总体性能:模型在所有类别中实现了0.512的平均精确度(mAP),表明总体性能中等。
  2. 类别差异:不同对象类别的性能存在显著差异:
    • 网球场(0.940)和飞机(0.909)显示出优异的性能,即使在高召回率下也能保持高精确度。
    • 篮球场(0.758)和港口(0.716)也表现良好。
    • 桥梁(0.195)、足球场(0.301)和小型车辆(0.364)表现较差,随着召回率的增加,精确度迅速下降。

召回率曲线

召回率曲线显示了随着我们调整预测的置信度阈值,模型检测对象(召回率)的能力如何变化。关键发现包括:

  1. 总体性能:模型在所有类别中实现了0.53的平均召回率,表明总体检测能力中等。
  2. 类别差异:不同对象类别的召回率性能存在显著差异:
    • 网球场、飞机和港口显示出优异的性能,即使在高置信度阈值下也能保持高召回率。
    • 足球场、桥梁和集装箱起重机表现较差,随着置信度的增加,召回率迅速下降。

总体结果总结

总体结果总结提供了模型性能的全面视图,突出了关键性能指标及其影响。

  1. 损失减少:所有三个损失组件(box_loss、cls_loss和dfl_loss)在训练周期内都显示出一致的减少,表明模型正在有效学习。
  2. 收敛:损失似乎在训练结束时趋于稳定,表明模型在100个周期后基本收敛。
  3. 验证性能:验证损失紧随训练损失,表明良好的泛化能力,没有显著过拟合。
  4. 精确度和召回率:精确度和召回率指标都显示出随时间的稳步改善,召回率在早期周期中似乎改善得更明显。
  5. mAP性能:平均精确度(mAP)在0.5 IoU(mAP50)和0.5-0.95 IoU(mAP50-95)下都显示出一致的改善,最终达到约0.52的mAP50和0.35的mAP50-95。
  6. 学习动态:大多数指标的快速初始改善后逐渐增加,表明模型迅速学习主要特征,然后进行微调。
  7. 稳定性:metrics/precision和metrics/recall图显示出一些波动,这是正常的,但总体趋势是向上的。
  8. 改进空间:尽管性能良好,但最终的mAP值表明仍有改进的空间,可能通过更长时间的训练或架构调整。

这些结果表明了一个成功的训练过程,具有良好的泛化和多个指标的一致改善,为航空影像中的目标检测提供了坚实的基础。

AI搜集汇总
数据集介绍
main_image_url
构建方式
DOTA v1.5数据集的构建方式主要基于对航空和卫星图像的高效对象检测需求。该数据集通过整合大量航空图像,并为其标注适合YOLOv9模型使用的标签,支持旋转边界框的标注,从而确保了数据集在处理复杂航空图像时的适用性。此外,数据集的构建过程中还特别考虑了小对象在大规模图像中的检测问题,通过精细化的数据处理和标注,提升了数据集的质量和实用性。
特点
DOTA v1.5数据集的主要特点在于其针对航空图像的高效对象检测进行了优化。该数据集不仅支持旋转边界框的标注,还特别设计了适合YOLOv9模型的数据管道,使得模型在处理小对象和大尺度图像时表现出色。此外,数据集还包含了详细的评估指标和可视化工具,便于研究人员和开发者进行深入分析和模型优化。
使用方法
使用DOTA v1.5数据集时,首先需要从指定的Google Drive链接下载数据集,并将其放置在项目的适当目录中。随后,通过运行一系列Python脚本,可以完成数据集的转换、训练测试集的划分以及模型的训练和测试图像的标注。具体操作包括使用`01_convert_dota_to_yolo.py`脚本将DOTA标签转换为YOLO格式,使用`02_create_train_test_split.py`脚本创建训练和测试集,以及使用`03_train_yolo_dota_model.py`脚本进行模型训练。最后,使用`04_label_test_images.py`脚本对测试图像进行标注。
背景与挑战
背景概述
DOTA v1.5数据集是由武汉大学测绘遥感信息工程国家重点实验室创建,旨在解决航空图像中的目标检测问题。该数据集的创建时间为2018年,主要研究人员包括武汉大学的团队,核心研究问题是如何在复杂的航空图像中准确检测和分类各种目标。DOTA v1.5数据集的推出极大地推动了航空图像处理领域的发展,为研究人员提供了丰富的数据资源,促进了基于深度学习的目标检测算法的研究与应用。
当前挑战
DOTA v1.5数据集在构建过程中面临了多个挑战。首先,航空图像中的目标通常较小且密集,这增加了检测的难度。其次,数据集需要支持旋转边界框,以适应航空图像中目标的多样性。此外,数据集的标注工作复杂且耗时,需要高精度的标注工具和专业知识。在应用方面,如何在高分辨率图像中高效地检测小目标,以及如何处理不同类别目标之间的相似性问题,仍然是该数据集面临的主要挑战。
常用场景
经典使用场景
DOTA v1.5数据集在航空影像目标检测领域中具有经典应用场景。该数据集与YOLOv9模型结合,能够高效、准确地检测大规模航空图像中的小型目标。其支持旋转边界框的特性,使得在处理复杂几何形状的目标时表现尤为出色。通过定制的数据管道,DOTA v1.5数据集能够为YOLOv9模型提供高质量的训练数据,从而在航空目标类别上实现高性能的检测效果。
解决学术问题
DOTA v1.5数据集解决了航空影像中目标检测的常见学术问题。由于航空图像中目标通常具有复杂的几何形状和小尺寸,传统的目标检测方法难以有效应对。DOTA v1.5通过提供支持旋转边界框的标注,显著提升了模型对这些复杂目标的检测能力。此外,该数据集的高质量标注和多样化的场景,为研究者提供了丰富的实验数据,推动了航空影像目标检测技术的发展。
衍生相关工作
DOTA v1.5数据集的发布和应用催生了多项相关经典工作。研究者们基于该数据集进行了大量的实验和模型优化,提出了多种改进的目标检测算法。例如,一些研究通过引入多尺度特征融合和注意力机制,进一步提升了模型在复杂场景中的检测精度。此外,DOTA v1.5数据集还被广泛用于评估和比较不同目标检测模型的性能,推动了该领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录