US Power Plants NAIP/LANDSAT8 Dataset
收藏github2018-12-06 更新2024-05-31 收录
下载链接:
https://github.com/bl166/USPowerPlantDataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于美国本土的电力厂,提供高分辨率(1米)和中分辨率(15米)的图像,用于检测/分割任务。数据来源包括NAIP提供的高分辨率图像和LANDSAT8提供的中分辨率图像,以及EPA EGRID文档提供的经纬度位置。
This dataset focuses on power plants within the United States, offering high-resolution (1-meter) and medium-resolution (15-meter) imagery for detection/segmentation tasks. The data sources include high-resolution images provided by NAIP and medium-resolution images from LANDSAT8, along with latitude and longitude locations provided by EPA EGRID documents.
创建时间:
2017-07-26
原始信息汇总
数据集概述
数据集名称
- The Creation of US Power Plants NAIP/LANDSAT8 Dataset
数据集目的
- 专注于美国大陆的电力工厂,提供高分辨率(1m)和中分辨率(15m)的图像,用于检测和分割任务。
数据来源
- NAIP:提供高分辨率图像
- Landsat8:提供中分辨率图像
- EPA EGRID documents:提供经纬度位置
数据集内容
- /uspp_naip:高分辨率电力工厂图像(约1115x1115像素,5MB/每张),用于收集标注。
- /uspp_landsat:中分辨率电力工厂图像(约75x75像素,70KB/每张),用于分类。
- /annotations*:包含置信度和二值掩码,表示电力工厂的轮廓。
- accepted_ann_json.txt:从Amazon Mechanical Turk收集的接受标注,以JSON文本形式存储。
- /confidence:置信度图,每个像素的值等于标注其为电力工厂部分的标注者数量。
- /binary:二值掩码,每个像素表示是否超过半数标注者同意其为电力工厂部分。
- /exceptions*:无有效标注的实例(可能无可见电力工厂或所有三个标注均被拒绝)。
- uspp_metadata.geogson*:包含地理位置、唯一egrid ID、工厂名称、州和县名称、主要燃料、化石燃料类别、容量因子、铭牌容量和CO<sub>2</sub>排放数据。
- egrid2014_data_v2_PLNT14.xlsx:Egrid文档的子集,包含美国电力工厂位置和其他信息。
数据集构造
- 数据准备(P1DATAPREP):下载卫星图像。
- 标注生成(P2ANNOGEN):收集电力工厂的标注。
- 数据处理(P3DATAPROC):合并接受的标注,创建二值标签,编译元数据。
- 测试分类器(P4TESTCLSFR,可选):基于像素的图像分割。
数据集测试
- 依赖:Python 3.X,包包括sklearn, matplotlib, scipy, PIL, json, re, os, sys。
- 代码与文档:https://github.com/bl166/USPowerPlantDataset/blob/master/P4TESTCLSFR_classify_sample.py
- 测试结果:包括交叉验证结果和特定案例测试。
数据集构造步骤
卫星图像下载
- 依赖:Python 2.X,Google Earth Engine Python API,包包括ee, numpy, xlrd。
- 代码与文档:https://github.com/bl166/USPowerPlantDataset/blob/master/P1DATAPREP_cropPowerPlants.py
- 步骤:
- 注册Google Earth Engine。
- 安装Python API。
- 在cropPowerPlants.py中定义索引和导出顺序。
- 运行脚本,监控任务。
- 将图像下载到**/uspp_naip和/uspp_landsat**。
收集标注
- 使用MTurkAnnotationTool。
创建二值标签
- 依赖:Python 3.X,包包括os, sys, json, numpy, PIL, xlrd。
- 代码与文档:https://github.com/bl166/USPowerPlantDataset/blob/master/P3DATAPROC_make.py
- 步骤:
- 准备必要的文件和目录。
- 预处理Landsat8数据。
- 运行make.py脚本。
- 输出包括**/annotations**,/exceptions,uspp_metadata.geogson。
测试数据集
- 使用classify_sample.py进行像素级分类测试。
搜集汇总
数据集介绍

构建方式
LANDSAT8 Dataset的构建分为数据准备、注释生成、数据集处理三个阶段。首先,通过Google Earth Engine API下载高分辨率(1m)和中等分辨率(15m)的卫星图像。其次,利用Amazon Mechanical Turk平台收集.annotation对电力设施的标注信息。最后,通过编写脚本整合接受的有效注释,创建二进制标签,并编译地理信息元数据。
特点
该数据集专注于美国大陆的电力设施,提供了两种分辨率的卫星图像,适用于检测/分割任务。其特色在于集成了高分辨率的NAIP图像和中等分辨率的Landsat8图像,同时包含了通过MTurk平台收集的详尽的电力设施注释信息,以及每个设施的地理信息元数据。
使用方法
使用该数据集时,用户需要先准备好NAIP和Landsat8的卫星图像,以及通过MTurk获得的注释文件。之后,运行提供的脚本进行数据预处理、注释整合和数据集构建。最终,可以利用所提供的示例脚本在数据集上进行像素级的分类任务测试。
背景与挑战
背景概述
LANDSAT8 Dataset是由Duke Data+ 2017项目中的研究人员构建的,旨在推动美国大陆电力设施的检测与分割任务。该数据集汇集了高分辨率(1m)和中等分辨率(15m)的图像,数据来源包括NAIP、Landsat8以及EPA EGRID文档。自创建以来,该数据集在电力设施检测、卫星图像处理等领域产生了显著影响,为相关研究提供了宝贵的资源。
当前挑战
在构建过程中,LANDSAT8 Dataset面临了多方面的挑战,其中包括卫星图像的下载与预处理、电力设施注释的收集与处理,以及数据集构建中的有效性与一致性保证。在研究领域中,该数据集所解决的领域问题是如何利用卫星图像准确检测和分割电力设施,这要求高精度的图像标注和强大的算法支持。
常用场景
经典使用场景
LANDSAT8 Dataset作为专注于美国大陆电厂的高分辨率与中分辨率影像数据集,其经典使用场景主要定位于电力设施检测与分割任务。科研人员可借助其提供的高分辨率NAIP影像与中分辨率Landsat8影像,进行深度学习模型的训练与验证,以实现对电力设施的精确定位与分类。
解决学术问题
该数据集解决了电力设施在遥感影像中的自动检测与分类问题,有助于提升电力基础设施管理的智能化水平。其提供的详细地理信息与标注数据,为学术研究中关于能源分布、环境影响评估等议题提供了重要支撑,极大推动了相关领域的科研进展。
衍生相关工作
基于LANDSAT8 Dataset,衍生出了众多相关工作,包括但不限于电力设施检测算法的研究、能源消耗模式分析以及环境监测系统的开发。这些研究进一步扩展了数据集的应用范围,促进了遥感技术在能源领域的深入应用。
以上内容由遇见数据集搜集并总结生成



