ClimateSet

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/RolnickLab/ClimateSet

下载链接

链接失效反馈

官方服务：

资源简介：

ClimateSet是一个包含来自CMIP6和Input4MIPs档案的36个气候模型输入和输出的数据集，旨在支持机器学习在气候模拟、降尺度及预测任务中的应用。该数据集不仅用于单一气候模型的任务，而是覆盖整个CMIP6档案，能够快速模拟新的气候场景，捕捉不同气候模型间的变异性，为政策制定者提供类似“平均气候场景”的信息。

ClimateSet is a dataset comprising inputs and outputs from 36 climate models sourced from the CMIP6 and Input4MIPs archives, designed to support the application of machine learning in climate simulation, downscaling, and prediction tasks. This dataset is not only utilized for tasks involving a single climate model but also spans the entire CMIP6 archive, enabling rapid simulation of new climate scenarios, capturing variability among different climate models, and providing policymakers with information akin to 'average climate scenarios'.

创建时间：

2023-10-18

原始信息汇总

ClimateSet - 大规模气候模型数据集

数据集概述

ClimateSet 是一个包含来自 CMIP6 和 Input4MIPs 档案的 36 个气候模型的输入和输出数据集。该数据集旨在支持机器学习（ML）社区在气候模拟、降尺度及预测任务中的应用。此外，ClimateSet 提供了一个模块化的数据集管道，用于检索和预处理额外的气候模型和情景。

数据集用途

该数据集已被用作 ML 基准，用于评估不同 ML 模型在多个气候模型上的性能和泛化能力。通过训练一个 ML 模型在所有 36 个气候模型上，可以快速预测新的气候情景，捕捉气候模型间的变异性。

数据集开发状态

数据集的创建代码和扩展核心数据集的代码仍在积极开发中，以提高可用性和效率。此外，数据集的存储库正处于活跃开发阶段，可能会遇到一些功能上的错误。

搜集汇总

数据集介绍

构建方式

ClimateSet数据集的构建基于气候模型的模拟结果，涵盖了降水（pr）和温度（tas）两个关键变量，并以250公里的名义分辨率提供了月度数据。该数据集的核心部分用于基准测试，未来将通过Python包扩展至其他变量和分辨率，并定期更新。数据集的预处理版本可通过HuggingFace平台获取，用户可选择下载整个数据集或特定气候模型的数据。

特点

ClimateSet数据集的主要特点在于其高分辨率和多变量覆盖，提供了气候模型模拟的关键数据，适用于气候模型仿真和机器学习模型的训练。此外，数据集的扩展性和定期更新机制确保了其持续的实用性和前沿性。数据集的多样性支持多种实验配置，包括单模型仿真、微调仿真和超级仿真，满足不同研究需求。

使用方法

使用ClimateSet数据集时，用户可通过HuggingFace平台下载预处理数据，或通过Arbutus（DRAC）系统在加拿大境内下载。下载后，用户需设置数据路径并配置Python环境，使用Python 3.10及以上版本。数据集支持多种机器学习模型的训练和实验复现，用户可通过提供的配置文件进行模型训练、微调和超级仿真实验。此外，数据集还提供了预训练模型的下载和使用指南，方便用户快速启动研究。

背景与挑战

背景概述

ClimateSet数据集由Julia Kaltenborn等研究人员于2023年创建，旨在为气候模型仿真提供一个大规模的机器学习基准数据集。该数据集的核心研究问题集中在如何通过机器学习模型有效地模拟和预测气候变化，特别是在降水和温度等关键变量上。ClimateSet的发布不仅为气候建模领域提供了新的研究工具，还为机器学习在气候科学中的应用开辟了新的可能性。通过HuggingFace平台，研究人员可以访问预处理的数据集和预训练模型，进一步推动了气候模型仿真技术的发展。

当前挑战

ClimateSet数据集在构建过程中面临了多个挑战。首先，气候数据的复杂性和高维度使得数据预处理和特征提取变得极为困难。其次，气候模型的多样性和不确定性要求数据集能够支持多种模型的仿真和比较。此外，数据集的扩展性和可维护性也是一个重要挑战，尤其是在未来计划发布更多变量和分辨率的情况下。最后，如何有效地管理和分发大规模的预训练模型和数据集，以确保全球研究者能够便捷地访问和使用，也是该数据集面临的一个重要问题。

常用场景

经典使用场景

ClimateSet数据集在气候模型仿真领域中具有广泛的应用，其经典使用场景包括气候模型的快速仿真与预测。通过该数据集，研究人员可以利用机器学习模型对气候模型进行高效仿真，从而在短时间内生成大量气候数据。这种仿真不仅能够加速气候模型的开发与验证，还能为气候变化研究提供更为精确的预测结果。

解决学术问题

ClimateSet数据集解决了气候模型仿真中的多个学术研究问题，特别是在模型复杂性和计算效率之间的平衡。传统的气候模型计算复杂且耗时，而通过机器学习模型的引入，ClimateSet能够显著降低计算成本，同时保持较高的仿真精度。此外，该数据集还为气候变化预测、极端天气事件模拟等研究提供了新的工具和方法，推动了气候科学的发展。

衍生相关工作

ClimateSet数据集的发布催生了一系列相关的经典工作，特别是在气候模型仿真和机器学习结合的研究领域。许多研究者基于该数据集开发了新的机器学习模型，如U-Net、ConvLSTM等，用于气候模型的快速仿真。此外，该数据集还推动了气候变化预测、极端天气事件模拟等领域的研究进展，为气候科学和机器学习的交叉研究提供了丰富的数据支持和实验平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集