five

IndiaWeatherBench

收藏
arXiv2025-08-31 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/tungnd/IndiaWeatherBench
下载链接
链接失效反馈
官方服务:
资源简介:
IndiaWeatherBench是一个专注于印度次大陆的区域天气预测的开放基准数据集。该数据集基于高分辨率区域再分析产品构建,包含20年的多通道大气状态数据,并提供了标准化的训练、验证和测试分割。数据集旨在解决区域天气预测问题,特别是印度地区的复杂气候多样性。
提供机构:
加利福尼亚大学洛杉矶分校
创建时间:
2025-08-31
搜集汇总
数据集介绍
main_image_url
构建方式
在区域气象预报研究领域,数据标准化是推动模型可比性的关键基石。IndiaWeatherBench基于印度季风数据同化分析系统(IMDAA)这一高分辨率区域再分析数据集构建,通过空间裁剪覆盖印度次大陆的256×256网格区域,并采用六小时时间采样策略。该数据集精选43个气象变量,涵盖地表观测、七层气压层数据和静态场,并严格划分2000-2017年为训练集、2018年为验证集、2019年为测试集,同时提供Zarr和HDF5两种格式以适应不同计算需求。
特点
该数据集的核心价值体现在其针对区域气象预报的特化设计。其空间分辨率达到0.12度(约12公里),时间跨度长达20年,能够精细刻画印度地区从干旱荒漠到热带雨林的复杂气候系统。数据集包含多维度气象要素,如温度、风速、气压、相对湿度和地形高度等,并创新性地支持边界强迫与粗分辨率全局条件两种外部信息注入策略。这种设计使模型能同时学习区域局部特征与全球环流背景的相互作用,为极端天气事件研究提供了独特的数据基础。
使用方法
在机器学习驱动的气象建模实践中,该数据集支持端到端的区域预报流程。研究人员可通过加载标准化数据切片,构建以历史气象状态为输入、未来状态为输出的映射函数。基准框架提供UNet、Transformer和图神经网络等架构实现,支持确定性预测与扩散概率建模两种训练范式。评估阶段可采用均方根误差、异常相关系数等指标进行模型验证,并通过边界条件插值、多变量联合训练等技术提升预报时效性。完整的代码库与预处理管道确保了实验的可复现性与跨区域扩展能力。
背景与挑战
背景概述
区域天气预报是应对局地气候变化、灾害防控与可持续发展的重要科学问题。随着机器学习在全球天气预报领域取得显著进展,区域尺度预报研究仍相对滞后。2025年由加州大学洛杉矶分校Tung Nguyen团队发布的IndiaWeatherBench数据集,基于印度季风数据同化分析系统的高分辨率区域再分析资料,构建了覆盖印度次大陆的标准化基准。该数据集通过整合20年气象观测数据,采用统一评估指标与数据划分策略,为区域天气预报研究提供了可复现的实验平台,对提升高影响天气事件的预测能力具有重要科学价值。
当前挑战
在区域天气预报领域,模型需克服复杂地形与季风系统带来的时空异质性挑战,同时解决有限区域建模中边界条件传递的物理一致性难题。数据集构建过程中面临原始数据体量庞大、格式异构与预处理复杂等工程障碍,需设计兼顾科学计算与机器学习需求的数据管道。此外,不同架构模型对边界条件策略的适应性差异显著,如Transformer类模型在粗分辨率边界条件下性能急剧退化,凸显了算法设计与物理约束协同优化的必要性。
常用场景
经典使用场景
在区域天气预报研究领域,IndiaWeatherBench作为首个针对印度次大陆的标准化基准数据集,其经典使用场景主要体现在机器学习模型的系统性训练与评估。该数据集基于IMDAA高分辨率区域再分析数据构建,提供20年时空连续的6小时间隔观测记录,覆盖256×256网格点的多通道大气状态变量。研究人员可利用该数据集对UNet、Transformer和图神经网络等多样化架构进行端到端训练,通过边界强迫和粗分辨率条件两种策略模拟真实预报环境,实现从历史天气状态到未来预报的映射函数学习。
衍生相关工作
该数据集的发布催生了区域天气预报研究的新范式,衍生出多类经典工作。基于其基准框架,研究者开发了Hi-LAM等分层图神经网络架构,通过改进边界条件处理机制提升区域预报精度。扩散模型Diffusion-LAM则利用该数据集实现了概率性区域预报,有效量化预测不确定性。后续研究如YingLong-Weather和MetMamba分别采用Transformer和Mamba架构,进一步探索了序列建模在区域预报中的潜力。这些工作共同构成了从确定性预测到概率建模、从卷积网络到新型架构的技术演进脉络。
数据集最近研究
最新研究方向
在区域天气预报领域,IndiaWeatherBench的推出标志着机器学习方法从全球尺度向高分辨率区域预测的重要转型。该数据集基于印度季风数据同化与分析系统,提供了12公里空间分辨率的标准化基准,有效解决了以往区域预测研究中数据不一致和评估协议缺失的瓶颈问题。当前研究聚焦于多架构模型比较,包括UNet、Transformer和图神经网络在边界强迫与粗分辨率条件化策略下的性能差异,同时探索确定性预测与扩散概率模型在极端天气事件中的适应性。这一进展不仅推动了南亚地区气候适应能力的提升,更为全球其他高影响区域的精细化天气预报建立了可扩展的范式。
相关研究论文
  • 1
    通过加利福尼亚大学洛杉矶分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作