methaneset
收藏Hugging Face2026-03-11 更新2026-03-12 收录
下载链接:
https://huggingface.co/datasets/tacofoundation/methaneset
下载链接
链接失效反馈官方服务:
资源简介:
MethaneSET 是一个用于卫星甲烷羽流检测的 AI 就绪数据集集合,涵盖三种传感器(Sentinel-2、Landsat-8/9 和 EMIT)并具有统一的元数据。该数据集包含带有专家验证的羽流分割掩码的标记场景、用于自监督学习的无羽流场景、用于数据增强的 WRF-LES 模拟合成羽流库,以及基于 MODTRAN 的透射率查找表,用于物理信息羽流注入。数据集总规模约为 2.0 TB,包括约 5,500 个标记场景和约 55,000 个无羽流场景。MethaneSET 支持多光谱和高光谱传感器的甲烷检测任务,适用于气候变化研究和环境监测。数据集遵循 CC-BY-4.0 许可,并提供了详细的元数据字段和快速入门指南。
MethaneSET is an AI-ready dataset collection for satellite methane plume detection, covering three types of sensors (Sentinel-2, Landsat-8/9, and EMIT) with unified metadata. This dataset includes labeled scenes with expert-validated plume segmentation masks, non-plume scenes for self-supervised learning, a WRF-LES simulated synthetic plume library for data augmentation, and MODTRAN-based transmittance lookup tables for physics-informed plume injection. The total size of the dataset is approximately 2.0 TB, containing around 5,500 labeled scenes and 55,000 non-plume scenes. MethaneSET supports methane detection tasks for multispectral and hyperspectral sensors, and is applicable to climate change research and environmental monitoring. The dataset is licensed under CC-BY-4.0, and provides detailed metadata fields and a quick start guide.
创建时间:
2026-03-04
搜集汇总
数据集介绍
构建方式
在遥感科学领域,甲烷排放的精准监测对于应对气候变化至关重要。MethaneSET数据集通过整合多源卫星传感器数据构建而成,其标注来源于两个独立的全球甲烷排放监测系统——国际甲烷排放观测站的甲烷警报与响应系统以及Carbon Mapper平台。这些系统通过多波段多时相增强图与匹配滤波检索等技术生成初步检测结果,并经过人工分析师交叉核验,最终形成高置信度的羽流分割掩膜。数据集涵盖了哨兵二号、陆地卫星八号/九号以及EMIT高光谱传感器的观测场景,并包含大量经确认的无羽流场景用于自监督学习。此外,数据集还融入了基于WRF-LES大涡模拟生成的合成羽流库以及MODTRAN6辐射传输模型计算的大气透过率查找表,为数据增强与物理信息注入提供了坚实基础。
特点
该数据集的核心特征在于其多传感器统一性与物理一致性。它首次将哨兵二号、陆地卫星八号/九号的多光谱数据与EMIT高光谱数据置于同一框架下,并提供了标准化的元数据与地理空间信息。对于多光谱数据,数据集遵循时相对比检测范式,提供了目标影像、参考影像、甲烷增强图及专家验证的羽流掩膜;对于高光谱EMIT数据,则直接提供校准后的辐射立方体、多种匹配滤波产品及对应掩膜,支持端到端与检索式两种检测方法。数据集采用TACO格式组织,通过Parquet目录实现无需加载影像即可进行高效的SQL查询与时空过滤,极大提升了数据访问与分析的灵活性。合成羽流库模拟了不同风速、源配置及太阳几何条件下的湍流扩散过程,其物理驱动的羽流注入管道能够快速生成逼真的训练样本。
使用方法
利用该数据集进行研究,用户可通过`tacoreader`库即时加载任意子集,无需预先批量下载全部数据。通过SQL语句或时空过滤条件,可以快速从数十万样本中筛选出特定时间范围、地理区域或排放强度的场景。读取具体样本时,系统通过HTTP范围请求按需获取对应的云优化GeoTIFF影像文件。对于模型训练,无羽流的预训练子集可用于自监督学习或作为合成羽流的背景;标注好的微调子集则直接用于监督学习。数据集配套的`methaneset`工具包支持物理增强,用户可调用合成羽流库与透过率查找表,将模拟的甲烷羽流以物理一致的方式注入到清洁背景影像中,从而高效扩充训练数据。这种设计使得数据集既能支持传统的监督学习范式,也能赋能前沿的自监督与物理信息机器学习方法。
背景与挑战
背景概述
甲烷作为强效温室气体,其精准监测对应对气候变化至关重要。MethaneSET数据集由Cesar Aybar等研究人员于2026年构建,旨在为基于卫星的甲烷羽流检测提供统一的多传感器AI就绪数据。该数据集整合了Sentinel-2、Landsat-8/9和EMIT三种传感器的观测数据,并融合了专家验证的羽流分割掩码、无羽流场景以及基于WRF-LES模拟的合成羽流库。其核心研究问题聚焦于克服传统甲烷监测中数据分散、标注不一致的局限,通过提供物理信息增强的统一框架,显著提升了机器学习模型在遥感甲烷排放检测中的泛化能力与精度,对大气科学、环境监测及气候政策制定产生了深远影响。
当前挑战
在甲烷遥感检测领域,主要挑战在于羽流信号微弱、易受地表反射和大气条件干扰,以及多传感器数据间的异构性难以统一处理。MethaneSET针对这些挑战,通过多波段多时相比对与匹配滤波技术,增强了羽流与背景的分离能力。数据集构建过程中,面临标注一致性与数据规模的双重难题:需整合IMEO MARS与Carbon Mapper两个独立监测系统的专家验证,以确保高置信度标签;同时,处理约2TB的多源遥感数据,涉及不同分辨率、坐标系统与数据格式的标准化,以及合成羽流库中大规模WRF-LES模拟的参数化设计,均对数据集的工程实现提出了严峻考验。
常用场景
经典使用场景
在遥感与气候科学领域,甲烷排放监测是应对全球变暖的关键环节。MethaneSET数据集通过整合Sentinel-2、Landsat-8/9和EMIT等多传感器数据,为卫星遥感甲烷羽流检测提供了统一的标注基准。其经典使用场景在于支持基于深度学习的羽流分割与检测模型训练,特别是利用其包含的专家验证羽流掩码、无羽流背景场景以及基于WRF-LES模拟的合成羽流库,研究者能够开展监督学习、自监督预训练以及物理信息增强的数据扩增,显著提升模型在不同传感器与地理条件下的泛化能力与检测精度。
实际应用
在实际应用层面,MethaneSET数据集为全球甲烷排放监测与预警系统的构建提供了关键数据支撑。基于该数据集训练的模型可部署于国际甲烷排放观测站(IMEO)的甲烷警报与响应系统(MARS)或Carbon Mapper等运营平台,用于自动化、大规模地检测油气田、垃圾填埋场、农业活动等区域的甲烷泄漏事件。其支持的多传感器数据融合能力,使得监测系统能够综合利用高时空分辨率的多光谱数据与高光谱分辨率的EMIT数据,实现从区域普查到重点源精确定量的分级监测,为政策制定与减排行动提供及时、可靠的数据依据。
衍生相关工作
围绕MethaneSET数据集,已衍生出一系列重要的研究方法与技术框架。例如,基于其多光谱时序图像对,发展了多波段多通道(MBMP)比值法等信号增强技术,用于从复杂地表背景中分离甲烷吸收特征。在深度学习方面,催生了端到端的羽流检测架构,能够直接从校准后的辐射立方体中学习羽流特征,避免了传统匹配滤波检索的中间步骤。其附带的TACO数据格式与tacoreader工具链,也推动了地理空间人工智能(GeoAI)领域在高效数据查询与流式加载方面的标准化工作,促进了大型遥感数据集在机器学习管道中的便捷集成。
以上内容由遇见数据集搜集并总结生成



