ENS-10|气象学数据集|数值模拟数据集
收藏ENS-10数据集概述
数据集简介
ENS-10是一个用于集合后处理的数据集,旨在通过移除集合成员的偏差来提高48小时预报质量。该数据集包含10个集合成员,覆盖20年(1998-2017年),通过扰动数值天气模拟生成,以捕捉地球的混沌行为。
数据内容
- 时间范围:1998年至2017年
- 集合成员:10个
- 变量:提供11个不同压力层以及地表的最相关大气变量,分辨率为0.5度。
- 预报时效:T=0, 24, 48小时(每周两个数据点)
数据应用
- 预测修正任务:通过移除集合成员的偏差来提高预报质量。
- 极端事件预测:评估基线模型在预测极端事件方面的性能。
数据访问
- 通过CliMetLab插件:使用Python包CliMetLab简化访问,可通过指定日期和类型(地表或压力层数据)下载数据。
- 直接下载:数据托管在ECMWF服务器上,可通过链接直接下载。
基线模型
数据集提供了一系列基线模型,用于预测修正任务,包括LeNet-Style、U-Net和Transformer等模型,并提供了这些模型在Z500、T850和T2m变量上的性能指标。
许可证
ENS-10数据集遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可证。
引用信息
@article{ashkboos2022ens, title={ENS-10: A Dataset For Post-Processing Ensemble Weather Forecast}, author={Ashkboos, Saleh and Huang, Langwen and Dryden, Nikoli and Ben-Nun, Tal and Dueben, Peter and Gianinazzi, Lukas and Kummer, Luca and Hoefler, Torsten}, journal={arXiv preprint arXiv:2206.14786}, year={2022} }

OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
SuMeyYao/ysmpubmedclt
该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。
hugging_face 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录