five

ClimateBench

收藏
arXiv2024-08-10 更新2024-08-14 收录
下载链接:
https://github.com/blutjens/climate-emulator
下载链接
链接失效反馈
官方服务:
资源简介:
ClimateBench是由麻省理工学院地球、大气和行星科学系等机构创建的气候模拟数据集,用于评估气候模型的性能。该数据集包含753条数据,涵盖了多种气候变量和排放情景。数据集的创建过程包括使用多个气候模型进行模拟,并对结果进行平均处理以减少内部变异性。ClimateBench主要应用于气候模拟和预测领域,旨在提高气候模型预测的准确性。

ClimateBench is a climate simulation dataset developed by institutions including the Department of Earth, Atmospheric and Planetary Sciences at the Massachusetts Institute of Technology (MIT) and other relevant organizations, used to evaluate the performance of climate models. This dataset contains 753 data records, covering multiple climate variables and emission scenarios. The dataset is constructed by running simulations with multiple climate models and averaging their outputs to reduce internal variability. ClimateBench is primarily applied in the fields of climate simulation and prediction, aiming to improve the accuracy of climate model predictions.
提供机构:
麻省理工学院地球、大气和行星科学系,斯克里普斯海洋研究所和哈利克奥卢数据科学研究所,加州大学圣地亚哥分校,麻省理工学院数据、系统和社会研究所
创建时间:
2024-08-10
原始信息汇总

气候模拟器数据集概述

数据集描述

该数据集用于比较线性模式缩放(LPS)与CNN-LSTM在气候模拟中的应用。数据来源于ClimateBench和MPI-ESM1.2-LR模型的新数据摘要。

数据下载

Em-MPI数据摘要(<10GB)

bash export DATA_DIR=/path/to/data/dir mkdir -p $DATA_DIR python download_emmpi.py --data_dir $DATA_DIR

ClimateBench NorESM2-LM目标和input4mips排放输入(<2GB)

bash export PATH_CLIMATEBENCH_DATA=$DATA_DIR/data/raw/climatebench/ mkdir -p $PATH_CLIMATEBENCH_DATA wget https://zenodo.org/record/7064308/files/train_val.tar.gz -P $PATH_CLIMATEBENCH_DATA tar -xvf "$PATH_CLIMATEBENCH_DATA/train_val.tar.gz" -C $PATH_CLIMATEBENCH_DATA rm $PATH_CLIMATEBENCH_DATA/train_val.tar.gz wget https://zenodo.org/record/7064308/files/test.tar.gz -P $PATH_CLIMATEBENCH_DATA tar -xvf "$PATH_CLIMATEBENCH_DATA/test.tar.gz" -C $PATH_CLIMATEBENCH_DATA rm $PATH_CLIMATEBENCH_DATA/test.tar.gz

数据处理

线性模式缩放(LPS)结果重现

bash jupyter notebook notebooks/calculate_climatebench_metrics.ipynb

内部变异性实验重现

第一代码测试:在50个成员集合平均Em-MPI数据上训练和评估CNN-LSTM

bash wandb login export TF_GPU_ALLOCATOR=cuda_malloc_async export KERAS_BACKEND=torch vim runs/cnn_lstm/mpi-esm1-2-lr/default/config/config.yaml python emcli2/models/cnn_lstm/train.py --cfg_path runs/cnn_lstm/mpi-esm1-2-lr/default/config/config.yaml --data_var pr --verbose

第二代码测试:在1,2,...,50个成员的子集上训练LPS和CNN-LSTM,然后绘制RMSE随实现次数的变化

bash python emcli2/models/cnn_lstm/train.py --train_m_member_subsets --cfg_path runs/cnn_lstm/mpi-esm1-2-lr/m_member_subsets_with_m50_eval_on_all_spcmp_dwp_manyr/config/config.yaml --data_var pr python emcli2/models/pattern_scaling/model.py --train_m_member_subsets --cfg_path runs/pattern_scaling/mpi-esm1-2-lr/m_member_subsets_with_m50_replace_False_eval_on_all_manyr/config/config.yaml --data_var pr python emcli2/utils/plotting.py --plot_m_member_subsets_experiment --data_var pr

其他图表重现

bash jupyter notebook notebooks/explore_linear_relationships.ipynb jupyter notebook notebooks/explore_local_internal_variability.ipynb

参考文献

如果该数据集对您的分析有用,请考虑引用:

@article{lutjens24internalvar, title={A Cautionary Tale about Deep Learning-based Climate Emulators and Internal Variability}, year={2024}, }

搜集汇总
数据集介绍
main_image_url
构建方式
ClimateBench数据集是通过整合NorESM2-LM气候模型对七种排放情景的三次模拟结果构建而成的。这些排放情景包括历史排放情景、共享社会经济路径(SSP)情景等,涵盖了从1850年到2100年的时间范围。数据集包含了四个排放变量:累积二氧化碳排放、甲烷排放、二氧化硫排放和黑碳排放。目标变量包括地表温度、日较差、降水和90th百分位降水,这些变量都是以三次模拟结果的平均值作为基准,并与500年的前工业化控制运行的平均值进行了比较。
使用方法
使用ClimateBench数据集时,首先需要了解数据集的输入和目标变量,以及数据分割和评估指标。然后,可以选择适合的气候模拟器对数据集进行训练和评估。例如,可以使用线性模式缩放(LPS)或卷积神经网络-长短期记忆网络(CNN-LSTM)模型。在训练过程中,需要将数据集分割为训练集、验证集和测试集,并使用评估指标来评估模型的性能。此外,还可以通过调整模型复杂度、训练目标和数据分割来优化模型的性能。
背景与挑战
背景概述
气候模型在探索不同排放路径下的气候结果方面发挥着重要作用,但由于其计算成本高昂,限制了其应用。为了解决这个问题,研究人员开发了更高效的气候模拟器,这些模拟器可以近似气候模型,并将排放量直接映射到气候结果上。为了评估这些模拟器的准确性,研究人员创建了基准测试,其中包括ClimateBench。ClimateBench是一个数据驱动的气候模拟基准测试,用于评估不同模拟技术对区域气候变量的预测能力。该数据集由来自NorESM2-LM气候模型的三次模拟结果组成,包含七个排放情景,以及每年平均的气候变量,如表面温度、降水等。该数据集的主要研究人员包括来自麻省理工学院地球、大气和行星科学系的Björn Lütjens等人。该数据集对气候模拟领域产生了重要影响,因为它提供了一个标准化的平台来比较不同模拟技术的性能,并促进了气候模拟技术的发展。
当前挑战
ClimateBench数据集在评估气候模拟器方面面临一些挑战。首先,该数据集仅包含来自NorESM2-LM模型的三次模拟结果,这可能导致内部变率的水平较高,从而增加了深度学习模拟器过拟合的风险。其次,由于数据集的规模有限,深度学习模型可能难以学习到复杂的非线性关系。此外,数据集的评估指标主要关注空间和全球平均误差,而忽略了气候模拟器在实际应用中的性能。为了解决这些问题,研究人员需要创建包含更多模拟结果的数据集,并使用更全面的评估指标来评估气候模拟器的性能。
常用场景
经典使用场景
ClimateBench数据集主要用于评估气候模拟器的性能,特别是在数据驱动的气候模拟领域。该数据集通过模拟不同排放路径下的气候变量,如表面温度和降水,为研究人员提供了一个标准化的平台来比较和测试各种模拟器的准确性。研究人员可以利用ClimateBench数据集来评估基于深度学习的气候模拟器与传统的线性模式缩放(LPS)模拟器的性能差异,以及内部变率对模拟器性能评估的影响。
解决学术问题
ClimateBench数据集解决了气候模拟器性能评估中的一个关键问题,即如何准确评估不同模拟器的性能。该数据集通过提供标准化的任务和数据集,使得研究人员能够在一个统一的框架下比较各种模拟器的准确性。此外,ClimateBench数据集还揭示了内部变率对模拟器性能评估的影响,为研究人员提供了一个新的视角来理解和改进气候模拟器的性能。
实际应用
ClimateBench数据集在实际应用中具有重要意义。它可以帮助研究人员更好地理解不同排放路径下的气候变量变化,为政策制定者提供科学依据。此外,ClimateBench数据集还可以用于评估和改进气候模拟器的性能,为气候预测和风险评估提供更准确的数据支持。
数据集最近研究
最新研究方向
ClimateBench数据集的最新研究揭示了内部变率对气候模拟器性能评估的重要影响。研究表明,线性回归为基础的气候模拟器在ClimateBench数据集上优于基于深度学习的气候模拟器,尤其是在模拟降水方面。这一结果与预期相悖,因为降水通常被认为是非线性的。研究指出,ClimateBench数据集内部变率较高,可能导致基于深度学习的模拟器过拟合,从而在性能评估中偏向于模型复杂度较低的模拟器。为了解决这个问题,研究人员使用包含更多气候模拟的MPI-ESM1.2-LR模型更新了ClimateBench数据集。使用更新后的数据集,研究显示,基于深度学习的CNN-LSTM模型在模拟降水方面可以比线性模式缩放模型更准确,而线性模式缩放模型在模拟表面温度方面仍然更准确。这些发现强调了在气候模拟器性能评估中考虑内部变率的重要性,并为未来气候模拟器的发展提供了新的方向。
相关研究论文
  • 1
    The impact of internal variability on benchmarking deep learning climate emulators麻省理工学院地球、大气和行星科学系,斯克里普斯海洋研究所和哈利克奥卢数据科学研究所,加州大学圣地亚哥分校,麻省理工学院数据、系统和社会研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作