five

WeatherReal|天气预报数据集|数据集评估数据集

收藏
arXiv2024-09-14 更新2024-09-18 收录
天气预报
数据集评估
下载链接:
https://github.com/official-project-page
下载链接
链接失效反馈
资源简介:
WeatherReal是由微软公司创建的一个用于天气预报评估的新型基准数据集,基于全球近地表的实地观测数据。该数据集包括三个版本的子数据集,分别来自ISD、Synoptic Data PBC和MSN天气用户报告,涵盖了广泛的气象变量。数据集经过严格的质量控制和后处理,确保了数据的高质量和可靠性。WeatherReal的创建旨在解决现有再分析数据在某些关键气象变量上的偏差问题,特别是在极端天气和局部天气的捕捉上。该数据集的应用领域主要集中在天气预报模型的评估和改进,旨在提高天气预报的准确性和实用性。
提供机构:
微软公司
创建时间:
2024-09-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
WeatherReal 数据集的构建基于全球近地表的实地观测数据,旨在为天气预报模型提供一个新颖的基准。该数据集整合了来自多个来源的实地观测数据,包括来自 Integrated Surface Database (ISD) 和 Synoptic Data PBC 的高质量观测网络数据,以及来自 MSN 天气用户的天气报告数据。数据集的构建过程中,采用了严格的数据处理和质量控制算法,确保数据的高质量和可靠性。这些算法包括数据提取、站点合并和全面的质量控制,以检测和消除错误数据点,从而提高数据的整体准确性。
使用方法
WeatherReal 数据集的使用方法主要包括模型评估和验证。研究人员和气象学家可以使用该数据集来评估和比较不同天气预报模型的性能,特别是在短期到中期(0-10天)预报问题上。通过将模型预测结果与 WeatherReal 中的实地观测数据进行对比,可以更准确地评估模型的预测能力和误差范围。此外,数据集还可以用于训练新的数据驱动模型,以提高天气预报的准确性和效率。
背景与挑战
背景概述
WeatherReal数据集由Microsoft Corporation的研究团队于近年创建,旨在通过全球近地表实地观测数据,为天气预报模型提供一个新颖的基准。该数据集的核心研究问题在于解决基于再分析数据(如ERA5)训练和评估的AI天气预报模型在某些关键变量(如近地表温度、风、降水和云)上与实际观测存在显著偏差的问题。WeatherReal的引入不仅填补了这一空白,还通过公开可访问的质量控制和评估框架,推动了AI天气预报研究向更具应用导向和操作准备的方向发展。该数据集的创建对天气预报领域具有重要影响力,因为它强调了实地观测在模型训练和评估中的关键作用,从而提高了天气预报的准确性和实用性。
当前挑战
WeatherReal数据集在构建过程中面临多个挑战。首先,收集和处理全球实地观测数据是一项极其繁重的任务,现有研究中使用的数据集往往集中在特定区域或依赖单一数据源,限制了结果的广泛适用性。其次,实地观测数据由于传感器和模块故障,常常存在大量错误,因此需要一个精心设计的质量控制系统来确保数据的高质量。最后,缺乏像ERA5这样的广泛认可和易于获取的实地观测数据集,导致不同研究基于不同的数据集和标准进行模型训练和评估,难以比较模型的能力。WeatherReal通过整合多个实地观测数据集、设计严格的质量控制系统和提供统一的评估标准,旨在解决这些挑战。
常用场景
经典使用场景
WeatherReal数据集的经典使用场景在于评估和改进基于人工智能的天气预报模型。通过提供全球近地表的实地观测数据,该数据集能够帮助研究人员和气象学家更准确地评估现有模型的性能,特别是在捕捉超本地和极端天气条件方面的能力。这种评估不仅限于温度、风速和降水等传统变量,还包括云量等对公众兴趣较大的参数。
解决学术问题
WeatherReal数据集解决了当前基于再分析数据训练和评估的AI天气预报模型在实际观测数据上的偏差问题。再分析数据由于其数值模型的固有特性,往往在近地表温度、风、降水和云等关键变量上与实际观测存在显著差异。WeatherReal通过引入实地观测数据,为学术界提供了一个更为真实和可靠的基准,推动了AI天气预报研究向更具应用导向和操作准备的方向发展。
实际应用
在实际应用中,WeatherReal数据集被广泛用于优化和验证天气预报模型,特别是在极端天气事件的预测和应急管理中。例如,通过对比模型预测与实地观测数据,气象部门可以更准确地发布预警信息,从而有效减少恶劣天气对生命和财产的威胁。此外,该数据集还支持基于用户报告的天气数据进行模型校准,使得预报结果更贴近公众的实际体验。
数据集最近研究
最新研究方向
在气象预报领域,基于人工智能的天气预报模型近年来取得了显著进展,甚至在某些方面超越了传统的数值天气预报系统。然而,这些模型大多依赖于再分析数据集如ERA5进行训练和评估,这些数据集在某些关键变量如近地表温度、风、降水和云的表示上与实际观测存在显著差异。为了解决这一问题,WeatherReal数据集应运而生,它基于全球近地表的实地观测数据,旨在为天气预报模型提供一个新颖的基准。WeatherReal不仅提供了高质量的实地观测数据,还包含了一个公开可访问的质量控制和评估框架。通过使用WeatherReal,研究人员可以更准确地评估数据驱动模型的性能,并推动AI天气预报研究向更具应用导向和操作准备的方向发展。
相关研究论文
  • 1
    WeatherReal: A Benchmark Based on In-Situ Observations for Evaluating Weather Models微软公司 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录