RainShift

Name: RainShift
Creator: Mila Quebec AI Institute, Montreal, Canada; European Centre for Medium Range Weather Forecasts (ECMWF), Bonn, Germany; Cluster of Excellence Machine Learning, University of Tübingen, Tübingen, Germany; McGill University, Montreal, Canada
Published: 2025-07-07 20:25:14
License: 暂无描述

arXiv2025-07-07 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/RainShift/rainshift

下载链接

链接失效反馈

官方服务：

资源简介：

RainShift是一个大型全球基准和数据集，旨在评估深度学习在降尺度任务中的地理泛化能力。数据集由ERA5再分析和IMERG卫星降水数据构建，用于评估包括GANs和扩散模型在内的最先进的概率降水降尺度模型。RainShift旨在支持开发能够泛化到低数据区域的降尺度方法，特别是在数据代表性不足的地区，如全球南方。

RainShift is a large-scale global benchmark and dataset designed to evaluate the geographical generalization capability of deep learning for downscaling tasks. The dataset is constructed using ERA5 reanalysis and IMERG satellite precipitation data, and is used to evaluate state-of-the-art probabilistic precipitation downscaling models including GANs and diffusion models. RainShift aims to support the development of downscaling methods that can generalize to low-data regions, particularly underrepresented areas such as the Global South.

提供机构：

Mila Quebec AI Institute, Montreal, Canada; European Centre for Medium Range Weather Forecasts (ECMWF), Bonn, Germany; Cluster of Excellence Machine Learning, University of Tübingen, Tübingen, Germany; McGill University, Montreal, Canada

创建时间：

2025-07-07

搜集汇总

数据集介绍

构建方式

RainShift数据集构建基于全球一致的数据源，包括ERA5大气再分析数据、IMERG卫星降水数据以及地理特征如陆地-海洋掩膜和地形高度。数据集通过将全球数据划分为多个子区域，并采用Zarr格式存储以优化训练效率。预处理步骤包括对降水数据进行阈值截断以消除ERA5中的已知偏差，并通过Z-score标准化和log变换处理变量。时间上，训练数据覆盖2001-2020年，测试数据为2021-2022年，确保时间独立性。地理上，12个训练区域和6个评估区域的划分模拟了不同数据可用性场景，重点评估模型在数据稀疏地区（如全球南方）的泛化能力。

使用方法

使用RainShift需通过其提供的Hugging Face接口获取Zarr格式数据，配套工具库包含数据加载器、训练管道和评估框架。基准任务要求模型从低分辨率ERA5输入生成高分辨率IMERG降水场的条件分布。典型流程包括：加载指定区域的标准化数据，选择训练子任务配置（如A1单区域或A4全区域），采用生成模型（如扩散模型或GAN）学习降尺度映射，最后在目标评估区域计算CRPS指标。研究建议结合分布对齐技术（如分位数映射）提升跨区域性能，并可通过扩展新区域数据推动算法在低观测地区的应用。

背景与挑战

背景概述

RainShift数据集由Mila Quebec AI Institute、ECMWF、University of Tübingen等机构的研究团队于2025年提出，旨在解决气候模型降尺度任务中的地理分布迁移问题。该数据集基于ERA5再分析数据和IMERG卫星降水数据构建，覆盖全球12个高分辨率观测训练区域和6个低数据覆盖的评估区域，重点关注全球南北半球间的数据不均衡问题。作为首个专门评估降尺度模型跨地理区域泛化能力的基准，RainShift通过定义渐进式训练场景（A1-A4）和量化分布偏移影响，推动了物理约束与生成式AI在气候科学中的融合应用。其创新性在于将计算机视觉中的超分辨率技术与气候建模结合，为缩小全球气候信息获取不平等提供了方法论基础。

当前挑战

RainShift面临的核心挑战体现在两个维度：在科学层面，降水过程具有高度非线性和多尺度特性，不同地理区域的地形、对流活动等差异导致统计降尺度模型的稳定性假设失效，例如模型在亚马逊流域与青藏高原间的性能波动达37%。在技术层面，数据集构建需解决三大难题：1)全球观测数据异构性，雷达/雨量站数据在赤道地区的覆盖率不足北极圈的1/5；2)卫星与再分析数据的系统偏差校正，如ERA5对弱降水的过高估计需通过IMERG进行阈值裁剪；3)概率建模的评估复杂性，需设计兼顾CRPS评分和物理合理性的多准则验证体系。这些挑战使得传统单区域训练模式在跨大陆应用时出现显著性能衰减，凸显了发展地理自适应降尺度技术的紧迫性。

常用场景

经典使用场景

RainShift数据集在气候科学领域主要用于评估深度学习模型在地理分布变化下的降水降尺度性能。该数据集通过整合ERA5再分析数据和IMERG卫星降水数据，为研究者提供了一个标准化的基准，以测试模型在不同地理区域的泛化能力。经典使用场景包括训练模型在数据丰富的地区（如北美和欧洲）进行降水降尺度，并在数据稀缺的地区（如全球南方）进行测试，以验证模型的跨区域适用性。

解决学术问题

RainShift数据集解决了气候降尺度模型中地理泛化能力不足的关键学术问题。通过提供全球范围的高分辨率降水数据，该数据集帮助研究者评估模型在数据分布变化下的性能下降情况。此外，它还揭示了地理和气候变异性对模型泛化的主导影响，为开发更具鲁棒性的降尺度方法提供了理论基础。数据集的量化评估指标（如CRPS）进一步推动了降水降尺度任务的标准化研究。

实际应用

在实际应用中，RainShift数据集为全球范围内的高分辨率降水预测提供了重要支持。例如，在数据稀缺的全球南方地区，该数据集可用于训练和验证降尺度模型，从而为当地极端天气事件（如洪水和干旱）的风险评估提供更精确的预测。此外，政府部门和气候研究机构可利用该数据集优化区域气候模型，提升农业、水资源管理和灾害预警等领域的决策能力。

数据集最近研究