GOES-16和CloudSat云类型标记数据集
收藏arXiv2023-06-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.11159v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由GOES-16地球同步卫星上的高级基础成像仪(ABI)提供的91个多波段云和湿度产品全盘(MCMIPF)以及CloudSat极地卫星的91个时间空间对应CLDCLASS产品组成。这些产品是日间的,对应于2019年1月和2月的月份,并选择使得两个卫星的产品可以在南美洲上空共同定位。CLDCLASS产品提供了每个轨道步骤观察到的云类型,而GOES-16多波段图像包含可以与这些数据共同定位的像素。我们开发了一种算法,返回一个表格形式的产品,提供多波段图像中的像素标记有观察到的云类型。这些标记数据在特定结构中非常有助于进行监督学习。
This dataset comprises 91 full-disk multi-cloud and moisture products (MCMIPF) from the Advanced Baseline Imager (ABI) aboard the geostationary satellite GOES-16, alongside 91 temporally and spatially matched CLDCLASS products from the CloudSat polar-orbiting satellite. All products are daytime observations spanning January and February 2019, and were curated to ensure co-registration of the two satellite datasets over South America. The CLDCLASS products provide cloud type labels acquired at each orbital track step, while the GOES-16 multi-band imagery contains pixels that can be co-registered with these CLDCLASS data. We developed an algorithm that generates a tabular dataset where pixels from the multi-band imagery are annotated with their corresponding observed cloud types. These labeled data are highly valuable for supervised learning applications.
创建时间:
2023-06-20
搜集汇总
数据集介绍

构建方式
在云物理与遥感科学领域,精确的云类型识别对气象预报与气候模型至关重要。GOES-16和CloudSat云类型标记数据集的构建,依托于地球同步卫星GOES-16搭载的先进基线成像仪(ABI)与极轨卫星CloudSat的云剖面雷达(CPR)的协同观测。研究团队选取2019年1月至2月南美洲区域的日间数据,通过时空匹配算法将CloudSat提供的2B-CLDCLASS云分类产品与GOES-16的多波段云湿度产品(MCMIPF)进行对齐。具体流程涉及坐标转换,将CloudSat轨道点的经纬度映射至ABI图像的像素网格,并提取以匹配点为中心的3×3×16维多波段图像块,最终生成包含云类型标签与对应图像块的表格化数据集。
特点
该数据集的核心特点在于其多源卫星数据的深度融合与高质量标注。数据集整合了GOES-16的16个光谱波段影像与CloudSat的垂直剖面云分类信息,实现了高空间分辨率(2公里)与精确云类型标签的有机结合。数据覆盖南美洲雨季,囊括了从无云到深对流云等九类云形态,样本量超过25万条,呈现出云类分布的不均匀性,如无云类别样本最丰富,层积云类别相对稀少。这种结构化的标注数据特别适用于监督学习任务,已通过线性神经网络验证其在云检测与特定云类(如深对流云)分类中的有效性。
使用方法
该数据集主要应用于机器学习驱动的云分类与遥感分析研究。用户可通过加载数据集表格,直接获取归一化后的多波段图像块及其对应的云类型整数标签。数据可直接作为输入,训练卷积神经网络或其它分类模型,以生成大范围的云类型专题图。实践中,研究者可借鉴论文中的网络架构,采用包含ReLU与Softmax激活函数的五层线性网络,以交叉熵损失函数进行优化,并利用Dropout等技术防止过拟合。数据集已发布于Kaggle平台,便于下载与社区共享,支持进一步扩展时间窗口或优化裁剪算法以提升应用效率。
背景与挑战
背景概述
在气象学与遥感科学领域,云层作为地球大气系统的关键组成部分,其类型与分布对气候模型精度、天气预测及辐射平衡研究具有深远影响。GOES-16和CloudSat云类型标记数据集由阿根廷国家空间活动委员会(CONAE)及科尔多瓦国立大学的科研团队于2023年构建,旨在通过融合地球静止轨道卫星GOES-16的多波段成像数据与极轨卫星CloudSat的云分类产品,为机器学习方法提供高质量的监督学习样本。该数据集聚焦于南美洲区域2019年1月至2月的日间观测,利用CloudSat雷达的垂直剖面云类识别结果,对GOES-16影像像素进行精准标注,从而解决了传统遥感手段在云顶层特性识别中的局限性,为云物理分析与气候建模提供了重要的数据基础。
当前挑战
该数据集致力于解决云类型自动分类的领域挑战,即如何利用多源卫星数据实现高精度、大范围的云类识别,以提升气候模型中对云辐射效应的量化准确性。在构建过程中,研究团队面临多重技术难题:首先,需实现地球静止卫星与极轨卫星的时空协同定位,克服两者在观测模式、分辨率及轨道特性上的差异;其次,CloudSat因电池故障仅能提供日间数据,限制了数据采集的时间窗口;此外,GOES-16全盘影像数据量庞大,而有效标注区域仅集中于CloudSat轨迹周边,导致存储与处理效率低下;最后,云类样本分布不均,如层积云等类别数据稀缺,可能影响机器学习模型的泛化能力。
常用场景
经典使用场景
在气象遥感领域,云类型的精确识别对于理解大气动力学和辐射平衡至关重要。GOES-16和CloudSat云类型标记数据集通过整合地球静止轨道卫星GOES-16的多波段成像数据与极轨卫星CloudSat的垂直剖面雷达观测,构建了一个具有高时空一致性的标记数据集。该数据集最经典的使用场景在于为监督学习算法提供训练样本,特别是用于开发基于深度学习的云分类模型。研究人员利用该数据集中的多波段图像像素及其对应的云类型标签,能够训练神经网络自动识别卷云、深对流云等复杂云类,从而提升卫星遥感数据的自动化解析能力。
解决学术问题
该数据集有效解决了遥感气象学中云类型自动分类的若干关键学术问题。传统云分类方法依赖单一传感器数据,难以同时获取云的垂直结构信息与水平空间分布,导致分类精度受限。本数据集通过融合GOES-16的多光谱成像与CloudSat的雷达剖面数据,提供了云顶特性与垂直层结的协同观测,使得机器学习模型能够学习云类在多波段光谱特征中的细微差异。这不仅降低了云分类中的误判率,还为气候模型中云辐射强迫效应的量化提供了更可靠的数据基础,进而缓解了气候变化评估中云相关参数的不确定性。
衍生相关工作
该数据集的发布催生了多项经典研究工作,推动了云遥感与机器学习交叉领域的发展。受其启发,研究者们开发了更先进的深度学习架构,如基于卷积神经网络的云分类模型,这些模型在CUMULO等扩展数据集上取得了显著性能提升。同时,该数据集的方法论为多源卫星数据融合提供了范本,促进了类似数据集的构建,如利用MODIS与CloudSat数据结合的云属性数据集。这些衍生工作不仅深化了对云微观物理过程的理解,还为地球系统科学中的可解释人工智能应用开辟了新路径,持续影响着遥感数据智能分析的前沿方向。
以上内容由遇见数据集搜集并总结生成



