DABench
收藏arXiv2024-08-21 更新2024-08-23 收录
下载链接:
https://github.com/your-repo-link-here
下载链接
链接失效反馈官方服务:
资源简介:
DABench数据集是由国防科技大学和上海人工智能实验室联合创建,专门用于数据驱动的天气数据同化研究。该数据集基于ERA5再分析数据,包含多种天气变量的模拟观测和背景场数据,支持从小时到年度的多尺度分析。数据集的创建过程结合了观测系统模拟实验方法和神经网络技术,旨在为天气预测模型提供精确的初始场,从而提高预测准确性。DABench数据集主要应用于天气预测领域,特别是中长期天气预报,通过提供标准化的数据和评估方法,推动数据驱动天气预测技术的发展。
The DABench dataset was jointly developed by the National University of Defense Technology and the Shanghai AI Laboratory, specifically designed for data-driven weather data assimilation research. Based on ERA5 reanalysis data, this dataset contains simulated observations and background field data for various weather variables, supporting multi-scale analysis ranging from hourly to annual timescales. Constructed using both observing system simulation experiment (OSSE) methodologies and neural network technologies, the dataset aims to provide accurate initial conditions for weather forecasting models and thereby enhance prediction accuracy. Primarily applied in the field of weather forecasting, especially medium-to-long range weather prediction, DABench promotes the development of data-driven weather forecasting technologies by providing standardized datasets and evaluation methodologies.
提供机构:
国防科技大学, 长沙, 中国 上海人工智能实验室, 上海, 中国
创建时间:
2024-08-21
搜集汇总
数据集介绍

构建方式
DABench数据集的构建基于ERA5数据,旨在为数据驱动天气预测系统提供基准。数据集由稀疏和带噪声的模拟观测数据、背景场、标准化评估指标和一个强大的基线模型DaT组成。观测数据通过在ERA5数据上添加高斯噪声模拟生成,以模拟真实世界中的观测误差。背景场由预训练的天气预测模型Sformer生成,用于评估数据同化结果对预测的影响。DaT模型将四维变分数据同化(4DVar)的先验知识集成到Transformer模型中,并在物理状态重建方面优于最先进的4DVarNet模型。
特点
DABench数据集具有四个标准特性:1)稀疏和带噪声的模拟观测数据;2)一个用于生成背景场的熟练预训练天气预测模型;3)用于模型比较的标准化评估指标;4)一个强大的基线模型DaT。DaT模型通过利用4DVar成本函数的梯度来聚合观测信息,从而提高模型利用观测数据的能力。
使用方法
DABench数据集可用于开发和测试机器学习模型,特别是用于天气数据同化的模型。数据集包含模拟观测数据、背景场和标准化评估指标,使研究人员能够公平地评估和比较不同的数据驱动数据同化算法。DaT模型可以作为基准,用于评估研究人员开发的模型性能,并推动数据驱动天气预测系统的发展。
背景与挑战
背景概述
DABench数据集的创建旨在解决数据驱动天气数据同化(DA)领域的研究挑战。该数据集由国防科技大学和上海人工智能实验室的研究人员于2024年提出,旨在为数据驱动DA算法提供一个标准的基准数据集。DABench利用ERA5数据作为真实值,为端到端数据驱动天气预测系统的开发提供指导。该数据集提供了四个标准特性:稀疏和噪声模拟观测、具有预测背景场的技能预测模型、标准化评估指标以及一个强大的基线模型DaT。DaT将四维变分DA先验知识集成到Transformer模型中,并在物理状态重建方面优于最先进的4DVarNet模型。DABench的提出对于推动数据驱动天气预测系统的发展具有重要意义,为研究人员提供了一个用于开发和比较DA模型的平台。
当前挑战
DABench数据集所面临的挑战主要包括:1) 数据集构建过程中模拟观测的稀疏性和噪声性,这要求算法能够有效地处理不完整的观测数据;2) 在数据同化过程中,如何融合背景场和观测数据以生成准确的初始场;3) 缺乏标准化基准数据集,难以公平评估不同数据驱动DA算法的性能;4) 如何在端到端数据驱动天气预测系统中实现数据同化算法与预测模型的集成。为了解决这些挑战,DABench提供了模拟观测数据、标准化评估指标以及强大的基线模型,为研究人员提供了一个用于开发和比较DA模型的平台。
常用场景
经典使用场景
DABench数据集作为数据驱动天气数据同化领域的标准测试集,其经典使用场景主要在于为研究者提供一个统一的平台,以便于评估和比较不同数据驱动同化算法的性能。该数据集包含了稀疏和噪声模拟观测数据、预训练的天气预报模型生成的背景场、标准化评估指标以及一个强大的基线模型DA Transformer (DaT)。研究者可以利用DABench来开发自己的模型,并与已建立的基线进行比较,从而推动数据驱动天气预报系统的发展。
衍生相关工作
DABench数据集的发布推动了数据驱动同化领域的研究。基于DABench,研究者开发出了多种新的同化算法,如DaT、4DVarNet等。这些算法在物理状态重建方面表现出色,为天气预报提供了更加精确的初始场。此外,DABench还促进了数据驱动同化领域与其他领域的交叉研究,如与远程 sensing 图像融合、自动驾驶等领域的研究。这些研究有助于提高数据驱动同化算法的鲁棒性和准确性,推动天气预报技术的进一步发展。
数据集最近研究
最新研究方向
DABench数据集的提出填补了数据驱动天气数据同化领域的空白,为研究人员提供了一个标准化的基准数据集,用于评估和比较不同的数据驱动同化算法。该数据集结合了稀疏和噪声模拟观测数据、预训练的天气预测模型、标准化评估指标和一个强大的基线模型DA Transformer (DaT),为数据驱动天气预测系统的开发提供了有力支持。DaT模型在物理状态重建方面超越了现有的最先进模型4DVarNet,显示出其在处理数据同化任务方面的潜力。未来研究可以探索生成模型在稀疏和噪声观测条件下的训练,以及结合传统数据同化方法与大型天气模型(LWMs)的框架开发。DABench数据集的发布将促进数据驱动天气预测系统的进一步发展,提高天气预测的准确性和可靠性。
相关研究论文
- 1DABench: A Benchmark Dataset for Data-Driven Weather Data Assimilation国防科技大学, 长沙, 中国 上海人工智能实验室, 上海, 中国 · 2024年
以上内容由遇见数据集搜集并总结生成



