five

ENS-10|气象学数据集|数值模拟数据集

收藏
github2022-12-09 更新2024-05-31 收录
气象学
数值模拟
下载链接:
https://github.com/spcl/ens10
下载链接
链接失效反馈
资源简介:
ENS-10数据集包含十组分布在20年(1998-2017年)的集合成员,通过扰动数值天气模拟来捕捉地球的混沌行为。数据集提供了11个不同气压层以及地表的最相关大气变量,分辨率为0.5度。该数据集旨在通过移除集合成员的偏差来提高48小时预报质量,提供了每周两次的数据点。

The ENS-10 dataset comprises ten sets of ensemble members distributed over a 20-year period (1998-2017), capturing the chaotic behavior of the Earth through perturbed numerical weather simulations. The dataset provides the most relevant atmospheric variables at 11 different pressure levels as well as at the surface, with a resolution of 0.5 degrees. It aims to enhance the quality of 48-hour forecasts by removing biases from ensemble members, offering data points twice a week.
创建时间:
2022-06-10
原始信息汇总

ENS-10数据集概述

数据集简介

ENS-10是一个用于集合后处理的数据集,旨在通过移除集合成员的偏差来提高48小时预报质量。该数据集包含10个集合成员,覆盖20年(1998-2017年),通过扰动数值天气模拟生成,以捕捉地球的混沌行为。

数据内容

  • 时间范围:1998年至2017年
  • 集合成员:10个
  • 变量:提供11个不同压力层以及地表的最相关大气变量,分辨率为0.5度。
  • 预报时效:T=0, 24, 48小时(每周两个数据点)

数据应用

  • 预测修正任务:通过移除集合成员的偏差来提高预报质量。
  • 极端事件预测:评估基线模型在预测极端事件方面的性能。

数据访问

  • 通过CliMetLab插件:使用Python包CliMetLab简化访问,可通过指定日期和类型(地表或压力层数据)下载数据。
  • 直接下载:数据托管在ECMWF服务器上,可通过链接直接下载。

基线模型

数据集提供了一系列基线模型,用于预测修正任务,包括LeNet-Style、U-Net和Transformer等模型,并提供了这些模型在Z500、T850和T2m变量上的性能指标。

许可证

ENS-10数据集遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可证。

引用信息

@article{ashkboos2022ens, title={ENS-10: A Dataset For Post-Processing Ensemble Weather Forecast}, author={Ashkboos, Saleh and Huang, Langwen and Dryden, Nikoli and Ben-Nun, Tal and Dueben, Peter and Gianinazzi, Lukas and Kummer, Luca and Hoefler, Torsten}, journal={arXiv preprint arXiv:2206.14786}, year={2022} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ENS-10数据集的构建基于数值天气预报模型的扰动生成,旨在捕捉地球大气系统的混沌行为。该数据集包含20年(1998-2017年)的十个集合成员,覆盖了11个不同气压层以及地表的大气变量,分辨率为0.5度。通过扰动数值模拟,ENS-10生成了用于48小时预报偏差校正的集合成员,提供了T=0、24和48小时的天气变量数据,每周两个数据点。
特点
ENS-10数据集的特点在于其高分辨率和多维度的天气变量覆盖,能够有效支持极端天气事件的预测校正任务。数据集提供了地表和多个气压层的关键大气变量,为机器学习模型提供了丰富的输入特征。此外,ENS-10还包含了预计算的极端预报指数(EFI),进一步增强了其在极端事件预测中的应用价值。
使用方法
ENS-10数据集可通过CliMetLab插件或直接下载方式获取。用户可以通过简单的Python代码加载地表或气压层数据,并将其转换为xarray格式以便进一步分析。此外,数据集提供了基线模型的训练脚本,用户可以通过指定模型名称、数据路径和目标变量来训练和评估模型。ENS-10还支持极端预报指数的提取和分析,为极端事件预测提供了便捷的工具。
背景与挑战
背景概述
ENS-10数据集由ETH Zurich的研究团队于2022年发布,旨在为气象预报中的后处理步骤提供高质量的数据支持。该数据集涵盖了1998年至2017年间的20年气象数据,包含10个由数值天气预报模型生成的扰动集合成员,以捕捉地球大气系统的混沌行为。ENS-10提供了11个不同气压层及地表的关键大气变量,分辨率为0.5度,专注于48小时预报的偏差校正任务。通过提供T=0、24和48小时的预报数据,ENS-10为极端天气事件的预测提供了重要支持,推动了机器学习模型在气象后处理中的应用。该数据集的开源性和广泛适用性使其成为气象学和气候研究领域的重要资源。
当前挑战
ENS-10数据集在解决气象预报后处理问题时面临多重挑战。首先,数值天气预报模型的多次运行生成集合成员需要极高的计算成本,这对数据集的构建提出了严峻的技术和经济要求。其次,气象数据的复杂性和高维度特性使得模型训练和偏差校正任务变得异常困难,尤其是在极端天气事件的预测中,模型需要具备更高的鲁棒性和准确性。此外,数据集的时空分辨率虽然较高,但在全球范围内捕捉局部气象现象的细节仍存在局限性。最后,如何有效利用ENS-10数据集中的多变量和多层次信息,开发出能够同时优化多个气象变量的后处理模型,也是当前研究中的一大挑战。
常用场景
经典使用场景
ENS-10数据集在气象预测领域具有广泛的应用,特别是在极端天气事件的预测中。该数据集通过提供20年间(1998-2017)的10个集合成员,捕捉了地球大气层的混沌行为。ENS-10数据集的主要用途是进行48小时预报的偏差校正,通过机器学习模型对集合成员进行后处理,从而提高预报的准确性。数据集包含11个不同气压层和地表的最相关大气变量,为研究人员提供了一个全面的实验平台。
实际应用
ENS-10数据集在实际应用中主要用于提高天气预报的准确性,特别是在极端天气事件的预测中。通过使用该数据集,气象学家和研究人员可以开发更精确的预报模型,从而为灾害预警和应急响应提供更可靠的数据支持。此外,ENS-10数据集还可以用于气候研究,帮助科学家更好地理解大气层的动态变化,为气候变化研究提供重要的数据基础。
衍生相关工作
ENS-10数据集已经衍生出多项经典研究工作。例如,基于该数据集的LeNet-Style、U-Net和Transformer模型在Z500、T850和T2m等变量的预测中表现出色。这些模型通过不同的机器学习方法对集合成员进行后处理,显著提高了预报的准确性。此外,ENS-10数据集还被用于极端天气事件的预测研究,为气象学领域提供了新的研究方向和工具。这些工作不仅验证了数据集的有效性,还推动了气象预测技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。

hugging_face 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录