BharatBench

Name: BharatBench
Creator: 地球与大气科学系，国家技术研究所，鲁尔克拉，印度
Published: 2024-05-13 16:04:56
License: 暂无描述

arXiv2024-05-13 更新2024-06-21 收录

下载链接：

https://www.kaggle.com/datasets/maslab/bharatbench

下载链接

链接失效反馈

官方服务：

资源简介：

BharatBench是一个专为印度地区设计的数据驱动中期天气预报数据集，由印度国家技术研究所地球与大气科学系创建。该数据集基于IMDAA再分析数据集，优化用于机器学习应用，涵盖1990至2020年的数据，空间分辨率为1.08°。数据集包含多种气象变量，如地表和大气变量，旨在通过机器学习方法提高天气预报的准确性和效率。BharatBench的应用领域包括提高印度地区天气预报的可靠性和应对极端天气事件的能力。

BharatBench is a data-driven medium-range weather forecast dataset tailored specifically for the Indian region, created by the Department of Earth and Atmospheric Sciences at the National Institute of Technology, India. Optimized for machine learning applications based on the IMDAA reanalysis dataset, it covers data spanning from 1990 to 2020 with a spatial resolution of 1.08°. The dataset includes a variety of meteorological variables, such as surface and atmospheric variables, aiming to improve the accuracy and efficiency of weather forecasting via machine learning methods. The application scenarios of BharatBench include enhancing the reliability of weather forecasting in the Indian region and the capacity to respond to extreme weather events.

提供机构：

地球与大气科学系，国家技术研究所，鲁尔克拉，印度

创建时间：

2024-05-13

搜集汇总

数据集介绍

构建方式

BharatBench数据集基于印度气象部门分析和同化（IMDAA）再分析资料构建，该资料提供了自1979年以来空间分辨率为0.12度、包含24个垂直层的高精度气象信息。为适应机器学习应用，研究团队将数据时间范围裁剪为1990年至2020年，地理范围限定于北纬5度至40度、东经65度至100度之间的印度区域。原始数据被重采样至1.08度分辨率（32×32网格点），以降低内存与计算负担。数据集涵盖地表变量、13个气压层（50至1000 hPa）的大气变量以及常量场，包括温度、风场、位势高度、降水等关键气象要素。数据以NetCDF格式存储，并通过Kaggle平台公开发布，便于研究人员直接获取和使用。

特点

BharatBench的核心特色在于其区域针对性与机器学习优化设计。不同于全球性的WeatherBench数据集，该数据集聚焦于印度这一地理多样性显著的区域，能够更好地捕捉从沙漠到高山、从平原到高原的微气候特征，从而提升区域天气预报的准确性。数据集提供了丰富的变量组合，包含5种地表变量、5种大气变量和2种常量场，为多变量协同分析提供了基础。此外，数据集严格划分了训练集（1990-2017年）、验证集（2018年）和测试集（2019-2020年），并采用连续时间段划分而非随机分割，以尊重气象变量强时间相关性的特点。配套提供了基于均方根误差、平均绝对误差和异常相关系数的评估指标，以及持久性预报、气候态预报、线性回归、卷积神经网络和卷积长短期记忆网络等基线模型，为模型性能比较提供了清晰的参考基准。

使用方法

使用BharatBench进行数据驱动的天气预报研究时，用户可从Kaggle下载NetCDF格式的数据文件，并通过GitHub仓库提供的Jupyter快速入门指南进行数据加载、模型训练和结果评估。数据集支持多种机器学习与深度学习框架，用户可基于提供的基线模型（如CNN和ConvLSTM）进行扩展或开发全新架构。建议用户利用训练集（1990-2017年）拟合模型，验证集（2018年）调整超参数避免过拟合，最终在测试集（2019-2020年）上评估泛化能力。对于空间数据处理，可参考论文中采用的图像到图像翻译思路，将大气变量场视为多通道图像进行建模。研究者还可探索变量组合优化、迁移学习、概率预报以及极端天气事件检测等高级应用方向。所有代码和文档均托管于GitHub，支持协作开发与问题讨论。

背景与挑战

背景概述

气象预报对农业、商业和应急管理等领域具有深远影响，然而传统数值天气预报模型依赖网格化求解物理方程，计算成本高昂，尤其在集合预报中更为显著。近年来，数据驱动方法凭借机器学习与深度学习技术的突破，逐渐成为提升预报效率与精度的有力替代方案。在此背景下，印度国家理工学院鲁尔克拉分校的Animesh Choudhury、Jagabandhu Panda等人于2024年创建了BharatBench数据集，专门面向印度区域的中期天气预报。该数据集基于高分辨率IMDAA再分析资料，涵盖1990至2020年的多变量气象场，并提供了清晰的评估指标与基线模型，旨在推动印度地区数据驱动天气预报的研究与应用，填补了区域专用基准数据集的空白。

当前挑战

BharatBench面临的核心挑战包括：第一，气象预报需同时捕捉空间模式与时间演化，如日循环、锋面移动及季节变化，其动态复杂性远超静态图像翻译任务。第二，数据的三维结构（如垂直气压层）使得传统卷积网络难以有效处理垂直动力学，且不同纬度因科里奥利效应和网格拉伸导致平移不变性假设失效。第三，有限训练数据易引发过拟合，而迁移学习与数据增强在物理场中受限于方向性约束。第四，数据集尚未覆盖概率预报，难以量化大气混沌带来的不确定性。此外，极端天气事件评估缺乏标准指标，且高分辨率多变量数据的存储与加载效率成为计算瓶颈。

常用场景

经典使用场景

BharatBench作为专为印度地区定制的数据驱动天气预报基准数据集，其经典使用场景集中于利用机器学习与深度学习模型进行中期气象要素预测。研究者可基于该数据集提供的32×32网格化再分析数据，针对500 hPa位势高度、850 hPa温度、2米气温及六小时累积降水等关键变量，构建并验证从简单线性回归到复杂卷积神经网络（CNN）及卷积长短期记忆网络（ConvLSTM）的预测模型。该数据集通过提供统一的训练（1990-2017）、验证（2018）与测试（2019-2020）划分，以及RMSE、MAE和ACC等标准评估指标，为模型性能的横向比较奠定了坚实基础，尤其适用于探索数据驱动方法在区域尺度上替代传统数值天气预报的可行性。

实际应用

在实际应用中，BharatBench为印度农业规划、洪水预警及极端天气应急管理提供了高效的数据驱动工具。基于该数据集训练的模型可快速生成高时效性的中期天气预报，辅助农民优化灌溉与播种决策，并为气象部门在季风季节预测热带气旋、热浪等灾害提供补充信息。其轻量化特性（32×32网格）显著降低了计算成本，使得资源有限的机构也能部署实时预报系统。此外，数据集与Kaggle及GitHub平台的整合，促进了跨学科协作，使气象学家、数据科学家及政策制定者能够共同开发面向印度本土需求的定制化预测方案，例如结合遥感数据改进降水预报精度，从而提升社会对气候风险的适应能力。

衍生相关工作

BharatBench的诞生催生了多项衍生研究工作，推动了区域数据驱动气象学的边界。该数据集为迁移学习与数据增强技术提供了试验场，例如研究者可借鉴FourCastNet或Pangu-Weather的架构，在印度区域微调预训练模型以提升长期预报技巧。其基线模型（如CNN与ConvLSTM）的对比结果，启发了针对垂直大气动力学建模的改进，如引入3D卷积或球形傅里叶神经算子。同时，数据集明确指出的概率预报缺失问题，激发了后续研究如WeatherBench Probability的扩展，通过集成学习或扩散模型生成极端事件的不确定性估计。此外，BharatBench与IMDAA的深度绑定，促使学界探索混合建模路径——将数据驱动输出与传统数值预报融合，从而在保持物理一致性的同时突破计算瓶颈。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集