ClimART
收藏arXiv2021-11-30 更新2024-06-21 收录
下载链接:
https://github.com/RolnickLab/climart
下载链接
链接失效反馈官方服务:
资源简介:
ClimART数据集是由达姆施塔特工业大学和米拉共同创建的,包含超过1000万个样本,涵盖当前、工业化前和未来气候条件。该数据集基于加拿大地球系统模型,旨在通过机器学习方法模拟和加速天气及气候模型中的大气辐射传输计算。ClimART数据集不仅提供了丰富的气候数据,还为机器学习社区提供了多样的测试集和物理信息,以促进模型在不同气候条件下的泛化能力。此外,数据集还关注了准确性与推理速度之间的平衡,为气候科学中的机器学习应用提供了重要资源。
ClimART dataset was co-developed by Technische Universität Darmstadt and Mila, containing over 10 million samples covering current, pre-industrial, and future climate conditions. Based on the Canadian Earth System Model, this dataset aims to simulate and accelerate atmospheric radiative transfer calculations in weather and climate models via machine learning methods. The ClimART dataset not only provides abundant climate data, but also offers diverse test sets and physical information for the machine learning community, to enhance the generalization capability of models across different climate conditions. Furthermore, the dataset prioritizes the balance between accuracy and inference speed, serving as a critical resource for machine learning applications in climate science.
提供机构:
达姆施塔特工业大学 & 米拉
创建时间:
2021-11-30
搜集汇总
数据集介绍

构建方式
ClimART数据集的构建基于加拿大地球系统模型(CanESM5)的模拟输出,覆盖了从1979年至2014年的当前气候条件,并扩展至1850-1852年的前工业时代及2097-2099年的未来气候情景。数据采集通过每205小时采样全球大气状态快照,利用CanESM5的辐射传输物理模型计算对应的辐射输出,包括短波与长波辐射的通量及加热率剖面。原始数据以NetCDF4格式存储,后处理为HDF5格式的NumPy数组,确保数据结构的完整性与高效访问。该过程生成了超过1000万样本,涵盖大气柱的层变量、水平变量及全局变量,形成了异构而统一的数据接口。
特点
ClimART数据集的核心特点在于其全面性与挑战性设计。它提供了三种不同天空条件(原始天空、晴朗天空)下的辐射传输模拟结果,包含短波与长波辐射的上下行通量及加热率剖面。数据集特别引入了多个分布外测试集,如1991年皮纳图博火山爆发事件、前工业时代及未来气候条件,以评估机器学习模型在极端大气变化与时间分布偏移下的泛化能力。此外,数据具有独特的异构结构,结合了一维垂直剖面数据与非空间全局变量,并强调了辐射传输过程中的非局部性物理特性,为模型设计带来了方法学上的挑战。
使用方法
使用ClimART数据集时,研究者可通过其提供的标准化接口访问输入与输出数组,其中输入分为层变量、水平变量和全局变量三类。数据集建议采用1979-2006年(排除1991-1993年)作为训练与验证集,2007-2014年作为主要测试集,并额外使用分布外测试集进行泛化评估。用户可根据需求选择不同的目标变量,如短波或长波辐射通量,并利用预计算的统计量进行数据标准化。在模型验证阶段,需综合考虑偏差与随机误差,并注意天气预测与气候模拟对误差容忍度的差异,确保模型在加速推理的同时保持气候预测的统计显著性。
背景与挑战
背景概述
ClimART数据集由加拿大环境与气候变化部、麦吉尔大学及Mila研究所等机构的研究团队于2021年构建,旨在为天气与气候模型中的大气辐射传输过程提供机器学习模拟基准。该数据集基于加拿大地球系统模型,涵盖工业革命前、当前及未来气候条件下的超过1000万样本,核心研究聚焦于通过高效神经网络替代传统计算密集型物理参数化方案,以缓解数值模拟中的计算瓶颈。其推出显著推动了气候科学与机器学习交叉领域的发展,为评估模型在分布外泛化、物理一致性及推理速度权衡等方面的性能提供了标准化平台。
当前挑战
ClimART数据集主要面临两大挑战:在领域问题层面,大气辐射传输的模拟需应对垂直非局部性、多尺度物理耦合及复杂边界条件等固有难题,要求机器学习模型在保持高精度的同时实现快速推理,以适配实际气候模拟的实时性需求。在构建过程中,数据采集需处理来自地球系统模型的异构多维变量,整合不同时空分辨率的物理场,并确保样本在历史、当前及未来气候情景中的代表性与一致性;此外,设计涵盖火山喷发、温室气体浓度变化等分布外测试集,以验证模型在极端与演进气候状态下的鲁棒性,亦构成了显著的技术障碍。
常用场景
经典使用场景
在气候建模领域,ClimART数据集为大气辐射传输过程的机器学习模拟提供了标准化基准。该数据集基于加拿大地球系统模型,囊括了从工业前到未来气候条件下的超过一千万个样本,覆盖了纯净天空与晴朗天空等多种大气条件。其经典应用场景在于训练神经网络模型,以替代传统数值模拟中计算成本高昂的辐射传输参数化方案,从而显著提升气候与天气模型的运算效率。
衍生相关工作
ClimART数据集催生了一系列辐射传输模拟领域的创新研究。基于其结构化数据特性,学者们探索了图卷积网络、图网络及一维卷积神经网络等先进架构,显著超越了传统多层感知机的性能局限。该数据集还启发了对非局部信息处理机制的深入研究,如可学习图结构的图神经网络,这些工作深化了对大气辐射垂直非局部性的理解,并为物理信息机器学习模型的发展奠定了实证基础。
数据集最近研究
最新研究方向
在气候建模领域,ClimART数据集作为大气辐射传输模拟的基准,正推动机器学习方法在数值天气预报和气候模型中的创新应用。前沿研究聚焦于开发能够处理非局部物理过程、适应分布外泛化的神经网络架构,如卷积神经网络和图神经网络,以提升模拟精度与推理速度的平衡。该数据集通过涵盖工业化前、当前及未来气候情景的多样化样本,促进了针对极端事件(如火山喷发)和长期气候变化的稳健性研究,为构建物理信息融合的混合模型提供了关键支撑,对加速气候预测计算、深化对辐射强迫机制的理解具有重要科学意义。
相关研究论文
- 1ClimART: A Benchmark Dataset for Emulating Atmospheric Radiative Transfer in Weather and Climate Models达姆施塔特工业大学 & 米拉 · 2021年
以上内容由遇见数据集搜集并总结生成



