five

africa-bfa-rainfall-subnational

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-bfa-rainfall-subnational
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“布基纳法索:次国家级降雨指标”,由世界粮食计划署(WFP)发布,并通过HDX平台提供。数据集包含基于Climate Hazards Group InfraRed Precipitation卫星影像和现场站数据(CHIRPS)以及CHIRPS-GEFS短期降雨预测计算的十日(dekadal)降雨指标,按次国家级行政单位聚合。数据集涵盖多种降雨指标,包括10天降雨量(mm)、1个月和3个月滚动聚合降雨量、长期平均降雨量及其异常百分比等。数据集共包含94,540行数据,分为75,632行的训练集和18,908行的测试集。每行数据代表时间序列观测,包含17个字段(12个数值型、4个类别型、1个日期时间型)。数据集适用于表格回归和其他相关气候与环境任务。数据经过Electric Sheep Africa处理,转换为Parquet格式,便于机器学习使用。数据集的地理范围限定为布基纳法索(BFA),时间覆盖范围由日期字段指示。

This dataset is named "Burkina Faso: Sub-National Rainfall Indicators", published by the World Food Programme (WFP) and available via the HDX platform. It contains dekadal rainfall indicators calculated based on Climate Hazards Group InfraRed Precipitation satellite imagery and in-situ station data (CHIRPS), as well as short-term rainfall forecasts from CHIRPS-GEFS, aggregated at the sub-national administrative unit level. The dataset covers a variety of rainfall indicators, including 10-day rainfall amount (mm), 1-month and 3-month rolling cumulative rainfall, long-term average rainfall, and its anomaly percentage, among others. In total, the dataset contains 94,540 rows of data, split into a training set with 75,632 rows and a test set with 18,908 rows. Each row represents a time-series observation, with 17 fields in total (12 numeric, 4 categorical, and 1 datetime field). The dataset is suitable for tabular regression and other related climate and environmental tasks. The data was processed by Electric Sheep Africa and converted to Parquet format to facilitate machine learning applications. The geographic scope of the dataset is limited to Burkina Faso (BFA), and its temporal coverage is indicated by the date field.
创建时间:
2026-04-09
原始信息汇总

数据集概述:布基纳法索次国家级降雨指标

基本描述

  • 数据集名称:Burkina Faso: Rainfall Indicators at Subnational Level
  • 发布者:WFP - World Food Programme
  • 数据来源:HDX (https://data.humdata.org/dataset/bfa-rainfall-subnational)
  • 许可协议:cc-by-4.0
  • 数据集更新日期:2026-04-03
  • 数据处理方:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
  • 数据处理日期:2026-04-08

数据集内容

  • 领域:气候与环境
  • 观测单元:时间序列观测数据
  • 地理范围:布基纳法索 (BFA)
  • 数据内容:包含基于CHIRPS卫星影像和CHIRPS-GEFS短期降雨预报计算得出的旬度降雨指标,并按次国家级行政单位进行聚合。
  • 关键指标
    • 10天降雨量 (mm) (rfh)
    • 1个月滚动累计降雨量 (mm) (r1h)
    • 3个月滚动累计降雨量 (mm) (r3h)
    • 长期平均10天降雨量 (mm) (rfh_avg)
    • 长期平均1个月滚动累计降雨量 (mm) (r1h_avg)
    • 长期平均3个月滚动累计降雨量 (mm) (r3h_avg)
    • 降雨距平百分比 (rfq)
    • 1个月降雨距平百分比 (r1q)
    • 3个月降雨距平百分比 (r3q)
  • 数据类型说明type列(在Schema中显示为version列)指示数值是基于预报、初步产品还是最终产品。预报在每月6日、16日和26日发布,并在1日、11日和21日更新。初步观测在3日、13日和23日替换上一旬的预报,最终观测在月中(13日或23日)发布,覆盖前一个月的所有三个旬。

数据集规模与结构

  • 总行数:94,540
  • 列数:17 (12个数值列,4个分类列,1个日期时间列)
  • 数据分割
    • 训练集 (train):75,632 行
    • 测试集 (test):18,908 行
  • 数据格式:ML-ready Parquet格式

变量(列)详情

列名 类型 描述/范围/示例值
date datetime64[ns] 日期时间
adm_level int64 行政级别,范围:1.0 – 2.0
adm_id int64 行政单位ID,范围:900712.0 – 1008365.0
pcode object 行政单位代码,示例:BF46, BF5402, BF4802
n_pixels float64 用于聚合的输入像素数,范围:56.0 – 1550.0
rfh float64 10天降雨量 (mm),范围:0.0 – 230.7656
rfh_avg float64 长期平均10天降雨量 (mm),范围:0.0 – 100.1305
r1h float64 1个月滚动累计降雨量 (mm),范围:0.0 – 438.7534
r1h_avg float64 长期平均1个月滚动累计降雨量 (mm),范围:0.0 – 279.32
r3h float64 3个月滚动累计降雨量 (mm),范围:0.0 – 943.4481
r3h_avg float64 长期平均3个月滚动累计降雨量 (mm),范围:0.0 – 675.8312
rfq float64 降雨距平百分比,范围:17.3651 – 439.3293
r1q float64 1个月降雨距平百分比,范围:17.6816 – 362.6118
r3q float64 3个月降雨距平百分比,范围:20.808 – 363.2209
version object 数据类型,取值:final, prelim, forecast
esa_source object 数据来源,固定值:HDX
esa_processed object 数据处理日期,示例:2026-04-08

数据预处理与局限性

  • 预处理流程:原始数据通过CKAN API从HDX下载并转换为Parquet格式。列名被转换为小写蛇形命名。常见的缺失值标记被统一为NaN。基于解析成功率(>85%阈值),1列从字符串转换为数值或日期时间类型。数据集使用固定随机种子(42)按80/20的比例分割为训练集和测试集,并保存为Snappy压缩的Parquet文件。
  • 局限性
    • 数据来源于WFP,未经ESA独立验证。
    • 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
    • 建议参考原始HDX数据集页面以获取发布者自身的方法说明和注意事项。

使用方式

python from datasets import load_dataset ds = load_dataset("electricsheepafrica/africa-bfa-rainfall-subnational") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

引用格式

bibtex @dataset{hdx_africa_bfa_rainfall_subnational, title = {Burkina Faso: Rainfall Indicators at Subnational Level}, author = {WFP - World Food Programme}, year = {2026}, url = {https://data.humdata.org/dataset/bfa-rainfall-subnational}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }

搜集汇总
数据集介绍
main_image_url
构建方式
在气候与环境监测领域,精准的降雨数据对于理解区域水文动态至关重要。该数据集以布基纳法索为地理范围,其构建基于气候灾害组红外降水卫星影像与地面站点数据的融合产品CHIRPS版本2,并结合CHIRPS-GEFS短期降雨预报。原始数据通过次国家级行政单元进行空间聚合,每个单元附有Pcode标识,并记录了用于生成聚合值的像素数量。数据产品涵盖预报、初步观测和最终观测三类,按照固定的发布周期更新,确保了时间序列的连续性与时效性。
特点
本数据集在气候数据分析中展现出鲜明的结构化特征。它包含94,540条时间序列观测记录,涵盖17个变量,其中12个为数值型,4个为类别型,1个为日期时间型。核心指标包括十日降雨量、一月至三月的滚动累积量及其长期平均值,以及相应的降雨异常百分比,为多尺度水文分析提供了丰富维度。数据集已按80/20的比例划分为训练集与测试集,并经过规范化处理,统一了缺失值标记,转换为Parquet格式,具备良好的机器学习就绪性。
使用方法
为便于研究人员开展气候建模与预测,该数据集提供了便捷的访问接口。用户可通过Hugging Face的`datasets`库直接加载,使用`load_dataset`函数并指定数据集路径即可获取。加载后的数据可轻松转换为Pandas DataFrame进行探索性分析或模型输入。数据集已预分训练与测试部分,支持直接用于回归等监督学习任务。对于深入的地理或时间分析,可依据`adm_level`、`pcode`及`date`等字段进行筛选与聚合。
背景与挑战
背景概述
在气候科学与人道主义援助的交叉领域,精准的降水监测对于评估农业风险、水资源管理及粮食安全至关重要。'Burkina Faso: Rainfall Indicators at Subnational Level'数据集由世界粮食计划署(WFP)于2026年发布,并由Electric Sheep Africa机构进行机器学习格式的优化处理。该数据集整合了气候灾害组红外降水卫星影像与站点数据(CHIRPS)以及CHIRPS-GEFS短期降水预报,以布基纳法索的次国家级行政单元为空间聚合尺度,提供了包括十日降水量、月度与季度滚动累积量、长期平均值及异常百分比在内的九项关键降水指标。其核心研究目标在于通过高时空分辨率的降水数据,支持干旱预警、作物产量预测及人道主义响应决策,从而提升西非萨赫勒地区气候脆弱性管理的科学基础与实践效能。
当前挑战
该数据集致力于解决降水时空变异性精准量化与早期预警的领域挑战,具体体现为如何将卫星遥感与地面观测数据有效融合,以克服地面站点稀疏带来的空间代表性不足问题,并实现从原始栅格数据到行政单元聚合指标的可靠转换。在构建过程中,面临多重技术性难题:其一,CHIRPS-GEFS预报数据具有动态更新周期,需协调初始预报、更新预报、初步观测与最终观测等多版本数据流,确保时间序列的一致性与完整性;其二,次国家级行政边界的空间异质性导致聚合像元数量(n_pixels)差异显著,需审慎处理空间尺度效应以避免指标计算偏差;其三,原始数据可能存在未经验证的误报值、定义不一致性或采样偏差,而自动化清洗流程难以完全修正这些固有局限,对下游机器学习模型的稳健性构成潜在风险。
常用场景
经典使用场景
在气候与环境科学领域,高分辨率降水数据的获取对于区域水文循环研究至关重要。该数据集以布基纳法索为地理范围,提供了次国家级行政单元的旬度降雨指标,包括降雨量、滚动聚合值及异常百分比。其经典使用场景在于支持时间序列分析与回归建模,研究人员可基于历史观测与短期预报数据,构建降水预测模型,评估不同时间尺度下降雨的空间分布特征与变化趋势。
解决学术问题
该数据集有效应对了干旱与半干旱地区降水监测中数据稀缺的学术挑战。通过融合CHIRPS卫星影像与地面站点数据,它提供了长期平均与实时异常指标,助力学者探究降雨变异性与极端气候事件的发生机制。其意义在于为气候适应性研究、水资源管理及农业干旱风险评估提供了标准化、网格化的数据基础,推动了环境科学在区域尺度上的定量分析进展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于CHIRPS-GEFS预报数据与历史序列的机器学习模型,被开发用于改进旬度降雨预测精度;同时,结合社会经济指标的综合脆弱性评估框架,常利用该数据集的异常值量化气候冲击。这些工作深化了数据在气候服务、灾害风险管理等交叉领域的应用,促进了跨学科方法的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作