ClimateSet

arXiv2023-11-07 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.03721v1

下载链接

链接失效反馈

官方服务：

资源简介：

ClimateSet是一个包含来自Input4MIPs和CMIP6档案的36个气候模型输入和输出的数据集。此外，还提供了一个模块化的数据集管道，用于检索和预处理额外的气候模型和情景。该数据集可以用于训练ML模拟器，快速预测新的气候变化情景，补充现有提供给政策制定者的情景。

ClimateSet is a dataset containing 36 climate model input and output pairs sourced from the Input4MIPs and CMIP6 archives. Additionally, a modular dataset pipeline is provided for retrieving and preprocessing additional climate models and scenarios. This dataset can be used to train ML emulators for rapid prediction of new climate change scenarios, and to supplement the existing scenarios provided to policymakers.

创建时间：

2023-11-07

搜集汇总

数据集介绍

构建方式

ClimateSet的构建依托于CMIP6和Input4MIPs两大权威气候数据档案，通过精心设计的模块化流水线实现数据检索与预处理。该数据集从地球系统网格联盟（ESGF）服务器直接下载原始数据，涵盖36个气候模型的输出及5种共享社会经济路径（SSP）情景下的温室气体与气溶胶排放输入。预处理流程包括一致性检查、时空分辨率同步、数据结构标准化等关键步骤，利用气候数据操作工具（CDO）和xmip库确保不同模型间数据在单位、网格和日历上的统一性，最终生成空间分辨率250公里、时间频率为月度的机器学习就绪格式。

特点

ClimateSet的核心特征在于其规模性与一致性，首次整合了多模型气候模拟数据以支持大规模机器学习研究。数据集包含36个气候模型的温度与降水输出，以及二氧化碳、甲烷、二氧化硫和黑碳四种气候强迫因子的排放输入，覆盖历史情景及四种未来SSP情景。其独特之处在于能够捕捉气候模型间的不确定性，为政策制定提供多模型投影参考，同时通过模块化流水线支持用户灵活扩展变量、情景或模型。数据经过严格的空间对齐与时间插值处理，确保了跨模型比较的可行性与机器学习训练的稳定性。

使用方法

用户可通过ClimateSet官网访问核心数据集，直接下载预处理后的数据用于气候模拟、降尺度或极端天气预测等任务。数据集支持序列到序列的机器学习建模，输入为排放场的时间序列，输出为气候变量的时空投影。研究者可利用提供的下载器与预处理器流水线扩展数据集，自定义气候模型、变量或分辨率，并通过配置模块化处理步骤适应不同计算环境。基准测试示例展示了数据集在气候模型仿真任务中的应用，支持单模型仿真与多模型超级仿真的训练与评估，为机器学习模型在跨模型泛化能力上的比较提供了统一平台。

背景与挑战

背景概述

ClimateSet数据集由Mila魁北克人工智能研究所与麦吉尔大学等机构的研究团队于2023年构建，旨在应对气候变化研究中机器学习模型训练数据不足的挑战。该数据集整合了CMIP6和Input4MIPs两大气候模型档案库的输入输出数据，涵盖36个气候模型、5种共享社会经济路径情景及历史数据，核心研究问题在于为气候模型仿真、降尺度及预测等任务提供大规模、一致且易于使用的标准化数据。其诞生标志着气候科学与机器学习交叉领域的重要进展，通过统一多模型数据为政策制定者提供更可靠的气候变化情景预测，显著提升了相关研究的可重复性与模型泛化能力评估的科学性。

当前挑战

ClimateSet面临的挑战主要体现在两方面：在领域问题层面，气候模型仿真任务需处理高维时空数据中的分布偏移问题，且不同模型间存在显著的投影不确定性，机器学习模型需在有限样本下捕捉多模型间的复杂非线性关系；在构建过程中，原始气候数据存在时空分辨率、网格结构及变量命名的不一致性，需开发模块化预处理流程以对齐数据格式，同时数据检索受地球系统网格联盟服务器稳定性制约，大规模数据处理对计算资源提出极高要求，且需精细考虑不同气候模型火模型与排放数据的匹配逻辑以避免双重计算。

常用场景

经典使用场景

在气候建模与机器学习交叉领域，ClimateSet数据集为气候模型仿真任务提供了标准化基准。该数据集整合了来自Input4MIPs和CMIP6档案的36个气候模型的输入与输出数据，覆盖多种共享社会经济路径（SSP）情景。其经典应用场景在于支持机器学习模型进行跨模型的气候仿真对比研究，例如通过训练卷积长短期记忆网络、ClimaX等模型，评估不同算法在模拟温度与降水响应时的性能差异。数据集的多模型特性使得研究者能够系统分析机器学习方法在不同气候模型间的泛化能力，从而推动更稳健的气候仿真工具开发。

衍生相关工作

ClimateSet的推出催生了多项前沿研究工作，尤其在气候仿真与机器学习融合领域。基于该数据集，研究者开发了如ClimaX等气候基础模型，这些模型利用多模型数据预训练，提升了在降水预测、温度仿真等任务上的性能。同时，数据集促进了超级仿真器概念的探索，即通过多头部解码器架构使单一模型同时仿真多个气候模型。此外，相关工作还涉及利用数据集评估卷积神经网络、高斯过程等传统方法在跨模型泛化中的表现，为气候不确定性量化提供了新工具。这些衍生成果共同推动了气候机器学习向规模化、标准化方向发展。

数据集最近研究