合成云光学厚度数据集
收藏arXiv2024-03-15 更新2024-06-21 收录
下载链接:
https://github.com/aleksispi/ml-cloud-opt-thick
下载链接
链接失效反馈官方服务:
资源简介:
本研究创建了一个名为‘合成云光学厚度数据集’的新型数据集,由瑞典国家空间数据实验室的研究团队开发。该数据集包含200,000个模拟数据点,用于模拟Sentinel-2卫星上的多光谱成像(MSI)传感器在12个光谱带的顶层大气辐射。数据集考虑了不同的云类型、云光学厚度、地面和大气剖面等因素。此数据集主要用于云检测和云光学厚度估计,旨在提高地球观测任务中对云层的识别和分析能力,特别是在土地覆盖映射、海洋颜色分析和农田监测等领域。
This study presents a novel dataset titled "Synthetic Cloud Optical Thickness Dataset", developed by the research team at the Swedish National Space Data Laboratory. This dataset contains 200,000 simulated data points that replicate the top-of-atmosphere (TOA) radiance measured by the Multispectral Instrument (MSI) sensor onboard the Sentinel-2 satellite across its 12 spectral bands. The dataset accounts for a range of factors including diverse cloud types, cloud optical thickness, surface properties, and atmospheric profiles, among others. Primarily designed for cloud detection and cloud optical thickness estimation tasks, this dataset aims to enhance the identification and analysis capabilities of cloud layers in Earth observation missions, particularly in applications such as land cover mapping, ocean color analysis, and farmland monitoring.
提供机构:
瑞典国家空间数据实验室
创建时间:
2023-11-23
搜集汇总
数据集介绍

构建方式
合成云光学厚度数据集通过模拟多光谱成像(MSI)传感器在Sentinel-2平台上的12个光谱带的顶层大气辐射,构建了一个包含200,000个模拟数据点的综合数据集。这些数据点考虑了不同的云类型、云光学厚度(COT)、云几何厚度、云高度以及地面和大气剖面。通过连接RTTOV v13辐射传输模型与外部资源,如ECMWF提供的大气剖面数据集和ECOSTRESS光谱库的光谱反射率数据集,实现了数据的生成。
特点
该数据集的特点在于其高度模拟的真实性和多样性,涵盖了多种云类型和光学厚度,以及不同地面和大气条件。此外,数据集的公开发布降低了研究参与的门槛,特别是对于非领域专家,提供了可重复和可控的基准测试环境。尽管独立像素分析(IPA)可能引入系统误差,但数据集的灵活性允许更精细的应用控制,如清晰保守与云保守云掩膜的实现。
使用方法
合成云光学厚度数据集主要用于训练机器学习模型,以预测和分类云的光学厚度。通过阈值处理COT估计,可以生成可靠的云掩膜。数据集的使用方法包括:首先,利用数据集训练多层感知器(MLP)等机器学习模型;其次,通过模型对实际卫星图像进行预测,生成云掩膜;最后,应用后处理技术如滑动窗口平均,以提高预测的空间一致性。数据集的代码、模型和相关资源已公开,便于研究者和开发者进行进一步的研究和应用。
背景与挑战
背景概述
合成云光学厚度数据集(Synthetic Cloud Optical Thickness Dataset)由RISE Research Institutes of Sweden、Luleå University of Technology、Swedish Meteorological and Hydrological Institute、AI Sweden和The Swedish Forest Agency等机构的研究人员共同创建。该数据集的核心研究问题是如何在地球观测(Earth Observation, EO)活动中,通过机器学习(ML)方法提高云检测和过滤的性能,特别是在云光学厚度(Cloud Optical Thickness, COT)估计方面。云层常常遮挡光学卫星对地球表面的监测,限制了土地覆盖制图、海洋颜色分析和农田监测等EO活动。合成云光学厚度数据集通过模拟Sentinel-2平台上的多光谱成像(MSI)传感器的12个光谱带的顶层大气辐射,考虑了不同的云类型、COT、地面和大气剖面,为ML模型提供了丰富的训练数据。该数据集的创建旨在缓解EO领域中COT数据稀缺的问题,并为云检测和过滤提供可靠且多功能的云掩膜。
当前挑战
合成云光学厚度数据集面临的挑战主要集中在两个方面。首先,云检测和COT估计的领域问题本身具有复杂性,云层的不均匀性和空间异质性使得传统的统计方法难以准确捕捉云的特征。其次,数据集构建过程中遇到的挑战包括模拟真实大气和地面条件的高精度要求,以及生成大量标注数据的时间和资源成本。此外,ML模型依赖于大量标注数据进行训练,而EO领域中这类数据往往稀缺且获取成本高昂。尽管合成数据集在一定程度上缓解了这一问题,但如何确保合成数据与真实数据的分布一致性,以及如何处理合成数据中的系统误差,仍是需要解决的关键问题。
常用场景
经典使用场景
合成云光学厚度数据集在地球观测领域中被广泛用于云检测和过滤任务。通过模拟多光谱影像传感器(如Sentinel-2平台上的MSI)在不同云类型、光学厚度和地面及大气条件下的反射率,该数据集为机器学习模型提供了丰富的训练数据。特别是,通过阈值化云光学厚度(COT)估计,可以生成可靠的云掩膜,从而提高地球观测任务的准确性。
实际应用
合成云光学厚度数据集在实际应用中具有广泛的前景。例如,在农业监测、海洋颜色分析和土地覆盖制图中,准确的云检测是确保数据质量的关键。通过使用该数据集训练的模型,可以生成高质量的云掩膜,从而提高这些应用的精度和可靠性。此外,该数据集还可以用于灾害评估和城市增长监测等领域,为决策提供更准确的数据支持。
衍生相关工作
合成云光学厚度数据集的发布催生了一系列相关研究工作。例如,研究人员利用该数据集开发了多种机器学习模型,包括多层感知器(MLP)和卷积神经网络(CNN),用于云检测和光学厚度估计。此外,该数据集还被用于验证和改进现有的云检测算法,如FMask和Sen2Cor。这些研究不仅提升了云检测的准确性,还推动了地球观测技术的发展。
以上内容由遇见数据集搜集并总结生成



