five

合成云光学厚度数据集|地球观测数据集|云层分析数据集

收藏
arXiv2024-03-15 更新2024-06-21 收录
地球观测
云层分析
下载链接:
https://github.com/aleksispi/ml-cloud-opt-thick
下载链接
链接失效反馈
资源简介:
本研究创建了一个名为‘合成云光学厚度数据集’的新型数据集,由瑞典国家空间数据实验室的研究团队开发。该数据集包含200,000个模拟数据点,用于模拟Sentinel-2卫星上的多光谱成像(MSI)传感器在12个光谱带的顶层大气辐射。数据集考虑了不同的云类型、云光学厚度、地面和大气剖面等因素。此数据集主要用于云检测和云光学厚度估计,旨在提高地球观测任务中对云层的识别和分析能力,特别是在土地覆盖映射、海洋颜色分析和农田监测等领域。
提供机构:
瑞典国家空间数据实验室
创建时间:
2023-11-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
合成云光学厚度数据集通过模拟多光谱成像(MSI)传感器在Sentinel-2平台上的12个光谱带的顶层大气辐射,构建了一个包含200,000个模拟数据点的综合数据集。这些数据点考虑了不同的云类型、云光学厚度(COT)、云几何厚度、云高度以及地面和大气剖面。通过连接RTTOV v13辐射传输模型与外部资源,如ECMWF提供的大气剖面数据集和ECOSTRESS光谱库的光谱反射率数据集,实现了数据的生成。
特点
该数据集的特点在于其高度模拟的真实性和多样性,涵盖了多种云类型和光学厚度,以及不同地面和大气条件。此外,数据集的公开发布降低了研究参与的门槛,特别是对于非领域专家,提供了可重复和可控的基准测试环境。尽管独立像素分析(IPA)可能引入系统误差,但数据集的灵活性允许更精细的应用控制,如清晰保守与云保守云掩膜的实现。
使用方法
合成云光学厚度数据集主要用于训练机器学习模型,以预测和分类云的光学厚度。通过阈值处理COT估计,可以生成可靠的云掩膜。数据集的使用方法包括:首先,利用数据集训练多层感知器(MLP)等机器学习模型;其次,通过模型对实际卫星图像进行预测,生成云掩膜;最后,应用后处理技术如滑动窗口平均,以提高预测的空间一致性。数据集的代码、模型和相关资源已公开,便于研究者和开发者进行进一步的研究和应用。
背景与挑战
背景概述
合成云光学厚度数据集(Synthetic Cloud Optical Thickness Dataset)由RISE Research Institutes of Sweden、Luleå University of Technology、Swedish Meteorological and Hydrological Institute、AI Sweden和The Swedish Forest Agency等机构的研究人员共同创建。该数据集的核心研究问题是如何在地球观测(Earth Observation, EO)活动中,通过机器学习(ML)方法提高云检测和过滤的性能,特别是在云光学厚度(Cloud Optical Thickness, COT)估计方面。云层常常遮挡光学卫星对地球表面的监测,限制了土地覆盖制图、海洋颜色分析和农田监测等EO活动。合成云光学厚度数据集通过模拟Sentinel-2平台上的多光谱成像(MSI)传感器的12个光谱带的顶层大气辐射,考虑了不同的云类型、COT、地面和大气剖面,为ML模型提供了丰富的训练数据。该数据集的创建旨在缓解EO领域中COT数据稀缺的问题,并为云检测和过滤提供可靠且多功能的云掩膜。
当前挑战
合成云光学厚度数据集面临的挑战主要集中在两个方面。首先,云检测和COT估计的领域问题本身具有复杂性,云层的不均匀性和空间异质性使得传统的统计方法难以准确捕捉云的特征。其次,数据集构建过程中遇到的挑战包括模拟真实大气和地面条件的高精度要求,以及生成大量标注数据的时间和资源成本。此外,ML模型依赖于大量标注数据进行训练,而EO领域中这类数据往往稀缺且获取成本高昂。尽管合成数据集在一定程度上缓解了这一问题,但如何确保合成数据与真实数据的分布一致性,以及如何处理合成数据中的系统误差,仍是需要解决的关键问题。
常用场景
经典使用场景
合成云光学厚度数据集在地球观测领域中被广泛用于云检测和过滤任务。通过模拟多光谱影像传感器(如Sentinel-2平台上的MSI)在不同云类型、光学厚度和地面及大气条件下的反射率,该数据集为机器学习模型提供了丰富的训练数据。特别是,通过阈值化云光学厚度(COT)估计,可以生成可靠的云掩膜,从而提高地球观测任务的准确性。
实际应用
合成云光学厚度数据集在实际应用中具有广泛的前景。例如,在农业监测、海洋颜色分析和土地覆盖制图中,准确的云检测是确保数据质量的关键。通过使用该数据集训练的模型,可以生成高质量的云掩膜,从而提高这些应用的精度和可靠性。此外,该数据集还可以用于灾害评估和城市增长监测等领域,为决策提供更准确的数据支持。
衍生相关工作
合成云光学厚度数据集的发布催生了一系列相关研究工作。例如,研究人员利用该数据集开发了多种机器学习模型,包括多层感知器(MLP)和卷积神经网络(CNN),用于云检测和光学厚度估计。此外,该数据集还被用于验证和改进现有的云检测算法,如FMask和Sen2Cor。这些研究不仅提升了云检测的准确性,还推动了地球观测技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录