Cumulo
收藏arXiv2022-10-14 更新2024-06-21 收录
下载链接:
https://www.dropbox.com/sh/i3s9q2v2jjyk2it/AACxXnXfMF5wuIqLXqH4NJOra?dl=0
下载链接
链接失效反馈官方服务:
资源简介:
Cumulo数据集由牛津大学等机构创建,旨在通过结合MODIS高分辨率图像与CloudSat云标签,提供全球云分类的基准数据。该数据集包含一年内1km分辨率的MODIS图像和CloudSat云标签,总计105,120条数据。创建过程中,数据集融合了多源卫星数据,并经过专业处理。Cumulo数据集主要应用于气候模型中云分类的改进,以减少未来气候预测的不确定性。
The Cumulo dataset was developed by institutions including the University of Oxford, aiming to provide benchmark data for global cloud classification by combining high-resolution MODIS imagery and CloudSat cloud labels. It contains MODIS imagery with 1 km spatial resolution and CloudSat cloud labels spanning a one-year period, totaling 105,120 data entries. During its construction, the dataset integrates multi-source satellite data and has undergone professional processing. The Cumulo dataset is primarily applied to improve cloud classification in climate models, so as to reduce uncertainties in future climate projections.
提供机构:
牛津大学
创建时间:
2019-11-05
搜集汇总
数据集介绍

构建方式
在云物理与气候建模领域,高分辨率云分类数据对于减少气候预测的不确定性至关重要。Cumulo数据集的构建巧妙地融合了两种互补的卫星观测数据:来自中分辨率成像光谱仪(MODIS)的全球1公里分辨率高光谱影像,以及来自CloudSat卫星的精准云标签“轨迹”。研究团队历时一年,对MODIS AQUA卫星的校准辐射数据进行了提取与处理,获得了包含13个训练通道的高光谱图像。与此同时,CloudSat的2B-CLDCLASS-LIDAR产品提供了沿其窄幅轨道、像素级宽度的云类型标签,这些标签对应于世界气象组织定义的八种云属。通过专业的地球科学知识和大规模计算资源,团队将这两类数据在时空上进行了精确对齐与融合,从而生成了这个包含105,120幅地理定位图像的基准数据集。
使用方法
该数据集主要用于开发和评估全球尺度的云分类机器学习模型。使用者可首先利用MODIS的13个训练通道(X)和稀疏的CloudSat标签(L)构建模型。鉴于标签的稀疏性,半监督或弱监督学习框架尤为适用,例如论文中采用的混合可逆残差网络,能够同时利用有标签和无标签的像素块进行训练。在模型评估阶段,除了常规的准确率、F1分数等机器学习指标外,强烈建议利用数据集提供的验证通道(V)进行物理一致性检验。例如,比较模型预测的各类云在液态水路径、云光学厚度等物理量上的分布与CloudSat真实分布的差异,确保模型不仅统计上准确,而且符合大气物理规律。数据已公开,研究者可直接下载用于算法创新与气候应用探索。
背景与挑战
背景概述
在气候科学领域,云层作为地球辐射收支与降水过程的核心调节者,其复杂动态是气候模型预测不确定性的主要来源之一。为深化对云-气候反馈机制的理解,由Valentina Zantedeschi、Fabrizio Falasca等跨机构研究团队于2022年创建的Cumulo数据集,通过融合MODIS高光谱影像与CloudSat雷达标签,构建了全球首套千米级分辨率的云分类基准数据。该数据集以世界气象组织定义的八类云属为基础,旨在推动机器学习技术在高精度云型识别中的应用,为气候建模提供更可靠的观测约束,从而降低未来气候预测的不确定性。
当前挑战
Cumulo数据集致力于解决高分辨率全球云分类这一关键科学问题,其核心挑战在于云型的高度时空异质性及多尺度物理特征的精确捕捉。在构建过程中,研究团队面临多源卫星数据的时空对齐难题,需克服MODIS与CloudSat在覆盖范围、分辨率与观测机制上的差异;同时,数据标注仅覆盖约1%的像素,形成弱监督学习场景,且像素可能对应多层云标签,加剧了多标签分类的复杂性。此外,数据集中深对流云等类别样本稀缺,导致严重的类别不平衡问题,对模型的泛化能力与物理一致性评估提出了更高要求。
常用场景
经典使用场景
在气候科学领域,高精度云分类是理解云-气候反馈机制的关键环节。Cumulo数据集通过融合MODIS高光谱影像与CloudSat雷达标签,为全球云分类模型提供了基准训练与评估平台。其经典使用场景体现在利用深度学习算法,如可逆流生成模型,对全球范围内的云类型进行半监督分类,实现从被动遥感数据中推断世界气象组织定义的八类云属,从而揭示云的空间分布与时间演变规律。
解决学术问题
Cumulo数据集有效应对了云物理研究中长期存在的挑战,即如何将高分辨率遥感观测与精确云属性测量相结合。它解决了传统云分类方法中空间覆盖有限、分辨率不足的问题,通过提供全球1公里分辨率的标注数据,支持机器学习模型在弱标注、多标签及类别不平衡条件下进行训练。这一数据集显著提升了云分类的准确性,为量化云对辐射收支的影响、减少气候模型中的不确定性提供了关键数据支撑。
实际应用
在实际气候建模与天气预报中,Cumulo数据集的应用价值凸显。其高分辨率云分类结果可直接集成到数值气候模型中,用于改进云参数化方案,提升降水预测和极端天气事件的模拟精度。此外,该数据集支持卫星数据同化,帮助气象机构实时监测全球云系变化,为航空安全、农业水资源管理及可再生能源评估提供可靠的云况信息,从而增强社会对气候变化的适应能力。
数据集最近研究
最新研究方向
在气候建模领域,云分类的精确性对降低未来气候预测的不确定性至关重要。Cumulo数据集通过融合MODIS高光谱影像与CloudSat云标签,为全球高分辨率云分类提供了基准。当前研究前沿聚焦于利用弱监督与生成式模型解决数据标注稀疏、类别不平衡及多标签识别等挑战。例如,可逆流生成网络(IResNet)被应用于半监督学习,不仅提升了分类精度,还能通过潜在空间探索发现云类中的细分子类,为理解云物理过程与气候反馈机制开辟了新途径。这一进展促进了机器学习与气候科学的交叉创新,有望推动更精准的气候模型构建。
相关研究论文
- 1Cumulo: A Dataset for Learning Cloud Classes牛津大学 · 2022年
以上内容由遇见数据集搜集并总结生成



