RarePlanes: Synthetic Data Takes Flight|飞机检测数据集|卫星图像分析数据集

github2020-07-20 更新2024-05-31 收录

飞机检测

卫星图像分析

下载链接：

https://github.com/Arcotbest/awesome-satellite-imagery-datasets

下载链接

链接失效反馈

资源简介：

合成数据（630k飞机，50k图像）和真实数据（14.7k飞机，253 Worldview-3图像（0.3m分辨率），122个位置，22个国家）的飞机注释和属性以及卫星图像。

Synthetic data (630k aircraft, 50k images) and real data (14.7k aircraft, 253 Worldview-3 images (0.3m resolution), 122 locations, 22 countries) with aircraft annotations and attributes, as well as satellite imagery.

创建时间：

2020-07-20

原始信息汇总

数据集概述

1. 实例分割

RarePlanes: Synthetic Data Takes Flight
数据集包含合成数据（630k飞机，50k图像）和真实数据（14.7k飞机，253 Worldview-3图像（0.3m分辨率），122个位置，22个国家）的飞机注释和属性以及卫星图像。
Agriculture-Vision Database & CVPR 2020 challenge
包含21k航空农田图像（RGB-NIR，美国，2019季节，512x512px芯片），6种田间异常模式（云影，双植物，播种机跳过，积水，水道和杂草簇）的标签掩码。
Spacenet Challenge Round 6 - Multi-Sensor All Weather Mapping
包含48k建筑足迹（增强的3DBAG数据集，建筑高度属性），Capella Space SAR数据（0.5m分辨率，四种极化）和Worldview-3图像（0.3m分辨率），鹿特丹，荷兰。
xView 2 Building Damage Asessment Challenge
包含550k建筑足迹和4种损坏等级，20个全球位置和7种灾害类型（野火，滑坡，大坝崩溃，火山爆发，地震/海啸，风，洪水），Worldview-3图像（0.3m分辨率），预训练的基准模型。
Microsoft BuildingFootprints
包含12.6mil（加拿大），125.2mil（美国）和17.9mil（乌干达/坦桑尼亚）建筑足迹，GeoJSON格式，基于Bing图像使用ResNet34架构进行划分。

2. 对象检测

DOTA: Large-scale Dataset for Object Detection in Aerial Images v1.5
包含15个类别，188k实例，Google Earth图像芯片，Faster-RCNN基准模型（MXNet），DOTA开发工具包，仅限学术使用。
xView 2018 Detection Challenge
包含60个类别，1百万实例，Worldview-3图像（0.3m分辨率），COCO数据格式，预训练的Tensorflow和Pytorch基准模型。
Stanford Drone Data
包含60个航空无人机视频，斯坦福校园和边界框，6个类别（行人，自行车手，滑板手，手推车，汽车，公共汽车）。

3. 语义分割

95-Cloud: A Cloud Segmentation Dataset
包含34701个手动分割的384x384补丁，带有云掩码，Landsat 8图像（R,G,B,NIR; 30m分辨率）。
Open Cities AI Challenge
包含790k建筑足迹，从Openstreetmap（2个标签质量类别），航空图像（0.03-0.2m分辨率，RGB，11k 1024x1024芯片，COG格式），非洲10个城市。

4. 场景分类

BigEarthNet: Large-Scale Sentinel-2 Benchmark
包含基于CORINE Land Cover（CLC）2018的多重土地覆盖标签，590,326个来自Sentinel-2 L2A场景的芯片（125个Sentinel-2瓦片，来自10个欧洲国家，2017/2018），66 GB档案。

5. 其他任务

IEEE Data Fusion Contest 2020
基于SEN12MS数据集（见类别语义分割）的陆地覆盖分类，低分辨率和高分辨率轨道。

AI搜集汇总

数据集介绍

构建方式

RarePlanes数据集的构建结合了合成数据与真实卫星图像的融合技术。该数据集包含了630,000架合成飞机和14,700架真实飞机的标注信息，覆盖了253张Worldview-3卫星图像，分辨率为0.3米，涉及122个地点和22个国家。合成数据通过先进的计算机图形技术生成，真实数据则通过高分辨率卫星图像采集，确保了数据集的多样性和广泛性。

特点

RarePlanes数据集的特点在于其丰富的飞机属性标注和高质量的卫星图像。每架飞机不仅包含位置信息，还涵盖了详细的属性数据，如型号、尺寸、方向等。此外，数据集提供了多种工具和资源，便于用户进行飞机检测、分类和实例分割等任务。其高分辨率的卫星图像和精确的标注使得该数据集在航空目标识别领域具有重要的研究价值。

使用方法

RarePlanes数据集的使用方法灵活多样，适用于多种计算机视觉任务。用户可以通过GitHub提供的工具包加载和处理数据，进行飞机检测、实例分割和属性分析等任务。数据集支持多种深度学习框架，并提供了详细的文档和示例代码，便于用户快速上手。此外，数据集还可用于验证合成数据在真实场景中的应用效果，推动航空目标识别技术的发展。

背景与挑战

背景概述

RarePlanes数据集由CosmiQ Works与A.I.Reverie于2020年6月联合发布，旨在通过合成数据与真实卫星图像的结合，推动航空器检测与识别领域的研究。该数据集包含63万架合成飞机和1.47万架真实飞机的标注信息，覆盖253张Worldview-3卫星图像（分辨率为0.3米），涉及122个地点和22个国家。其核心研究问题在于如何利用合成数据增强真实数据的训练效果，以解决航空器检测中的样本稀缺问题。该数据集为计算机视觉和深度学习领域提供了重要的数据支持，尤其在航空器检测、实例分割和属性分析方面具有广泛的应用前景。

当前挑战

RarePlanes数据集面临的挑战主要体现在两个方面。首先，航空器检测领域的主要挑战在于如何在高分辨率卫星图像中准确识别和定位飞机，尤其是在复杂背景和遮挡情况下。其次，数据集的构建过程中，合成数据与真实数据的对齐与融合是一个技术难点，需要确保合成数据的多样性和真实性能够有效补充真实数据的不足。此外，数据标注的准确性和一致性也对模型的训练效果产生重要影响，尤其是在多国多地区的复杂场景下，标注的标准化和统一性是一个亟待解决的问题。

常用场景

经典使用场景

RarePlanes数据集在遥感图像分析领域具有广泛的应用，特别是在飞机检测与识别任务中。该数据集结合了合成数据和真实卫星图像，提供了丰富的飞机标注信息，涵盖了全球多个国家和地区的不同场景。研究人员可以利用该数据集进行实例分割、目标检测等计算机视觉任务的模型训练与评估，尤其是在处理高分辨率卫星图像时，RarePlanes提供了极具挑战性的数据样本。

衍生相关工作

RarePlanes数据集自发布以来，已衍生出多项经典研究工作。例如，Shermeyer等人（2020）在相关论文中详细探讨了合成数据在遥感图像分析中的应用潜力，并提出了基于该数据集的飞机检测模型。此外，许多研究团队利用RarePlanes数据集开展了跨域适应、小样本学习等前沿研究，进一步拓展了该数据集在计算机视觉领域的应用范围。这些工作不仅验证了数据集的实用价值，也为后续研究提供了重要的参考与借鉴。

数据集最近研究

最新研究方向

在遥感与计算机视觉领域，RarePlanes数据集凭借其丰富的合成与真实飞机标注数据，成为研究热点。该数据集不仅包含63万架合成飞机和1.47万架真实飞机的标注信息，还涵盖了253幅高分辨率Worldview-3卫星图像，覆盖22个国家的122个地点。近年来，研究者们利用该数据集在目标检测、实例分割等任务中取得了显著进展，特别是在合成数据与真实数据的融合应用上，推动了航空目标识别技术的突破。RarePlanes的发布为航空监测、军事侦察等领域的智能化发展提供了强有力的数据支持，进一步促进了深度学习模型在遥感图像分析中的广泛应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

MECCANO

MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成，包含299,376帧视频数据。数据集不仅标注了时间上的动作片段，还标注了空间上的活跃物体边界框，涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录