IndiaWeatherBench
收藏Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/tungnd/IndiaWeatherBench
下载链接
链接失效反馈官方服务:
资源简介:
IndiaWeatherBench是一个为机器学习区域天气预报而构建的印度次大陆专业数据集。它基于印度季风数据同化与分析(IMDAA)再分析数据集,提供了2000年至2019年的6小时分辨率的气象数据,覆盖了6°N至36.72°N,66.6°E至97.25°E的区域,并包含了43个气象变量。数据集已经按照训练、验证和测试进行了分割,并以Zarr和HDF5两种格式提供。
创建时间:
2025-09-06
原始信息汇总
IndiaWeatherBench 数据集概述
数据集简介
IndiaWeatherBench 是一个专为机器学习定制的印度次大陆区域天气预报基准数据集,基于印度季风数据同化与分析(IMDAA)再分析数据集构建。
数据来源
- 原始数据:印度国家中程天气预报中心(NCMRWF)、英国气象局和印度气象部门(IMD)合作开发的 IMDAA 再分析数据集
- 开发背景:印度国家季风任务(National Monsoon Mission)
时间与空间范围
- 时间范围:2000–2019年(20年)
- 时间间隔:6小时(00、06、12、18 UTC)
- 地理范围:6°N–36.72°N,66.6°E–97.25°E
- 空间分辨率:约256×256网格
数据划分
- 训练集:2000–2017年(约26,500个样本)
- 验证集:2018年(约1,500个样本)
- 测试集:2019年(约1,500个样本)
变量信息
单层变量
- 2米温度(TMP)
- 10米风速(UGRD/VGRD)
- 降水(APCP)
- 平均海平面气压(PRMSL)
- 云量(TCDCRO)
气压层变量
- 温度(TMP_prl)
- 位势高度(HGT)
- 风速(UGRD_prl/VGRD_prl)
- 相对湿度(RH)
- 气压层:50、250、500、600、700、850、925 hPa
静态场变量
- 地形高度(MTERH)
- 土地覆盖(LAND)
数据格式
Zarr格式
- 分块云原生数组存储
- 兼容 xarray 和 dask
- 适用于科学分析和快速切片
HDF5格式
- 针对机器学习训练优化
- 每个.h5文件对应一个时间步长的所有变量
- 预分割为 train/、val/ 和 test/ 目录
许可证信息
- 许可证类型:Creative Commons Attribution–NonCommercial–ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 允许用途:非商业、教育和研究用途
- 商业用途联系:director@ncmrwf.gov.in
- 使用要求:任何使用该数据集的出版物需发送副本至上述地址
相关资源
- IMDAA再分析门户:https://rds.ncmrwf.gov.in/
- 许可证详情:https://creativecommons.org/licenses/by-nc-sa/4.0/
搜集汇总
数据集介绍

构建方式
印度气象基准数据集基于印度季风数据同化与分析(IMDAA)再分析资料构建,该资料由印度国家中程天气预报中心与英国气象局及印度气象部门联合开发。原始数据涵盖1979至2020年每小时的高分辨率气象观测,空间精度达0.12度,包含57个变量和63个气压层。为适应机器学习需求,本数据集选取2000至2019年时段,采用6小时间隔采样,并重新网格化为256×256空间范围,最终筛选出43个核心气象变量。
特点
该数据集突出表现为其区域针对性与机器学习友好性,专注于印度次大陆6°N至36.72°N和66.6°E至97.25°E的地理范围,提供20年连续时序数据。包含单层场、多层气压场及静态地形字段等多维度气象要素,且已预先划分为训练集、验证集和测试集。数据以Zarr和HDF5双格式发布,既支持科学计算框架的高效切片读取,也适配深度学习模型的批量训练需求。
使用方法
研究人员可通过Zarr格式结合xarray库进行灵活的气象数据分析与可视化,或直接加载HDF5文件开展机器学习建模。每个HDF5文件对应单一时间步长的全变量数据,用户可按预设的数据分割路径加载训练、验证及测试样本。使用过程中需遵循CC BY-NC-SA 4.0许可协议,非商业用途需向原始数据提供方报送研究成果副本。
背景与挑战
背景概述
印度气象基准数据集(IndiaWeatherBench)由印度国家中程天气预报中心(NCMRWF)、英国气象局及印度气象部门(IMD)联合开发,基于印度季风数据同化与分析(IMDAA)再分析数据集构建而成。该数据集聚焦于南亚次区域的高精度气象预测研究,覆盖1979至2020年每小时气象观测数据,空间分辨率达0.12度,包含57个气象变量及63个气压层信息,旨在推动机器学习在区域气候建模与极端天气事件预测中的应用,为季风动力学研究及防灾减灾提供关键数据支撑。
当前挑战
在气象预测领域,IndiaWeatherBench致力于解决高分辨率区域天气预报中的非线性动力学建模难题,特别是季风系统演变与极端降水事件的精准预测。数据集构建过程中面临多重挑战:原始IMDAA数据格式复杂且体量庞大,需转换为机器学习友好型结构;需协调多源异构数据的一致性处理与质量控制;同时需确保时空切片的标准划分与静态场变量的有效整合,以支持端到端的深度学习模型训练与验证。
常用场景
经典使用场景
在气象科学领域,IndiaWeatherBench数据集为机器学习驱动的区域天气预报研究提供了标准化实验平台。该数据集最经典的应用场景在于训练和验证深度学习模型对印度次大陆关键气象要素的预测能力,研究人员利用其6小时间隔的高分辨率网格数据,构建时空预测模型来模拟温度、降水、风场等变量的演变规律。其精心划分的训练集、验证集和测试集使得模型能够系统评估在不同季节和气候条件下的泛化性能。
解决学术问题
该数据集有效解决了气象机器学习领域长期存在的三个核心问题:原始数据获取困难、格式标准化缺失以及评估基准不统一。通过提供经过严格质量控制的Zarr和HDF5格式数据,研究者可以专注于模型创新而非数据预处理。其涵盖的43个多层级气象变量支持对复杂大气过程的建模,特别是对印度季风系统这种高影响天气现象的机理研究和预测改进,显著提升了区域气候研究的可重复性和比较性。
衍生相关工作
该数据集已经催生了一系列重要的衍生研究,包括基于Transformer的时空预测架构、物理约束神经网络以及多变量概率预报系统。这些工作不仅推动了气象AI方法学的进步,还产生了可操作的业务预报产品。部分研究通过融合传统数值模式与机器学习方法,开发出了新型混合预报框架,这些成果正在被印度气象部门评估用于业务预报系统,体现了学术研究向业务应用的转化价值。
以上内容由遇见数据集搜集并总结生成



