METER-ML

arXiv2022-08-15 更新2024-07-31 收录

下载链接：

https://stanfordmlgroup.github.io/projects/meter-ml/

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含86,599个地理参考的NAIP、Sentinel-1和Sentinel-2图像的多传感器数据集，用于识别美国境内的甲烷源设施，包括集中动物饲养操作、煤矿、垃圾填埋场、天然气加工厂、炼油厂和石油终端以及污水处理厂。

A multisensor dataset containing 86,599 georeferenced NAIP, Sentinel-1, and Sentinel-2 imagery, designed for identifying methane source facilities across the United States, including Concentrated Animal Feeding Operations (CAFOs), coal mines, landfills, natural gas processing plants, oil refineries and petroleum terminals, as well as wastewater treatment plants.

创建时间：

2022-07-23

搜集汇总

数据集介绍

构建方式

在甲烷排放源自动识别领域，METER-ML数据集的构建体现了多源遥感数据融合的前沿理念。该数据集整合了美国境内86,599个地理参考样本，覆盖了集中动物饲养场、煤矿、垃圾填埋场、天然气处理厂、炼油厂与石油终端以及污水处理厂六类甲烷排放设施。构建过程首先从18个公开可再分发数据源中收集设施位置，通过500米空间去重获得51,729个正样本位置；同时利用Descartes Labs GeoVisual Search工具，基于约50类非甲烷设施景观的典型样本，采集并人工验证了34,870个负样本位置。所有位置均以720米×720米空间范围为中心，配对了NAIP（1米分辨率）、Sentinel-2（10-60米多光谱）和Sentinel-1（10米合成孔径雷达）三类遥感影像，共包含19个光谱波段，并依据最新成像时间和最低云量筛选影像数据，确保了时空一致性。

特点

METER-ML的显著特征在于其多传感器、多光谱与高空间分辨率的协同架构。数据集囊括了NAIP的可见光与近红外波段、Sentinel-2的沿海气溶胶、红边、短波红外等13个光谱通道，以及Sentinel-1的VH和VV极化波段，为模型提供了丰富的光谱与纹理信息。其地理参考属性支持空间分析与全球可迁移性研究，而专家标注的验证集与测试集（共1,533个样本经过双专家共识标注）则保障了评估的可靠性。数据集的类别分布呈现不平衡性，如集中动物饲养场样本占比最高（约29%），而煤矿样本较少（约2%），这反映了真实世界中基础设施的分布差异，也为模型鲁棒性测试提供了挑战。

使用方法

该数据集适用于多标签分类任务，旨在推动甲烷排放源自动识别算法的研发。使用者可基于PyTorch或TensorFlow框架，加载预处理后的影像块与对应标签，构建卷积神经网络模型。输入数据需根据各波段显示范围进行归一化，Sentinel-1与Sentinel-2影像可通过双线性上采样至NAIP的1米分辨率以保持空间对齐。研究建议采用DenseNet-121等架构，并探索多传感器分支融合、地理先验集成等进阶方法。评估时推荐使用精确率-召回率曲线下面积（AUPRC）等指标，并关注不同设施类别在分辨率、空间范围与波段组合下的性能差异，以优化模型在全局尺度上的适用性。

背景与挑战

背景概述

METER-ML数据集由斯坦福大学研究团队于2022年构建，旨在应对全球气候变化背景下甲烷排放源精准识别的迫切需求。该数据集整合了美国境内的NAIP航空影像、Sentinel-1与Sentinel-2卫星数据，涵盖86,599个地理参考样本，标注了集中动物饲养场、煤矿、垃圾填埋场等六类甲烷排放设施。作为MEthane Tracking Emissions Reference计划的重要组成部分，METER-ML为机器学习社区提供了首个公开的多传感器遥感基准数据，推动了基于深度学习的自动化甲烷源测绘研究，对气候监测与减排政策制定具有显著科学价值。

当前挑战

在甲烷排放源识别领域，核心挑战在于如何从多源遥感数据中精准区分形态各异、尺度不一的设施类型，尤其需克服低分辨率影像中特征模糊、类间相似性高的问题。数据集构建过程中，研究人员面临多重困难：一是需融合来自18类公开数据的设施位置信息，并进行地理去重与噪声校正；二是需协调NAIP、Sentinel-1/2等异构传感器的空间分辨率与光谱波段差异，构建统一的多模态数据框架；三是依赖专家对1,533个样本进行人工核验以保障标注质量，这一过程耗时且需领域专业知识支撑。

常用场景

经典使用场景

在甲烷排放源遥感识别领域，METER-ML数据集为多模态深度学习模型提供了标准化的评估基准。该数据集整合了NAIP航空影像、Sentinel-2多光谱影像与Sentinel-1合成孔径雷达影像，覆盖了集中动物饲养场、垃圾填埋场、煤矿等六类典型甲烷排放设施。研究者通过该数据集能够系统评估不同空间分辨率、光谱波段与传感器组合对设施识别精度的影响，例如实验表明采用NAIP全波段模型在集中动物饲养场识别任务中取得了0.945的AUPRC值，为优化遥感甲烷源测绘算法提供了关键数据支撑。

实际应用

在气候治理实践中，该数据集支撑了甲烷排放监管与减排策略的制定。基于数据集训练的深度学习模型已展现出规模化测绘集中动物饲养场与石油炼化终端的潜力，其识别精度分别达到0.915与0.821的AUPRC值。这些成果可直接应用于环境机构的排放源动态监测系统，辅助识别未申报的排放设施，优化甲烷泄漏检测资源的空间部署。同时，数据集包含的Sentinel系列全球覆盖影像为跨国排放清单比对提供了技术迁移基础。

衍生相关工作

该数据集推动了多传感器融合与地理人工智能方法的前沿探索。以OGNet石油设施识别研究为起点，衍生出针对不同甲烷源类别的专项识别模型，如利用联合NAIP与Sentinel影像的混合架构优化煤矿识别性能。后续研究进一步拓展了时空序列分析在垃圾填埋场动态监测中的应用，并启发了基于地理先验知识的迁移学习框架，促进模型在缺乏高分辨率影像区域的泛化能力，形成从数据构建到算法创新的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集