africa-sen-rainfall-subnational
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-sen-rainfall-subnational
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“塞内加尔:次国家级降雨指标”,由世界粮食计划署(WFP)发布,来源于HDX平台。数据集包含基于Climate Hazards Group InfraRed Precipitation卫星影像和现场站数据(CHIRPS)版本2以及CHIRPS-GEFS短期降雨预报计算的十日(dekadal)降雨指标,按次国家级行政单位聚合。包含的指标有:10天降雨量(mm)、1个月滚动聚合降雨量(mm)、3个月滚动聚合降雨量(mm)、长期平均降雨量(mm)、1个月滚动聚合长期平均降雨量(mm)、3个月滚动聚合长期平均降雨量(mm)、降雨异常(%)、1个月降雨异常(%)和3个月降雨异常(%)。数据集还包含行政单位代码、像素数量和数据类型(预报、初步或最终产品)等信息。数据集总共有94,540行,分为75,632行的训练集和18,908行的测试集,涵盖17个列(12个数值型、4个类别型和1个日期时间型)。数据集适用于表格回归和其他气候相关任务,地理范围限于塞内加尔(SEN)。数据集经过Electric Sheep Africa整理为适合机器学习的Parquet格式。
创建时间:
2026-04-08
原始信息汇总
数据集概述:塞内加尔次国家级降雨指标
基本信息
- 数据集名称:Senegal: Rainfall Indicators at Subnational Level
- 发布者:WFP - World Food Programme
- 数据来源:HDX (https://data.humdata.org/dataset/sen-rainfall-subnational)
- 许可证:cc-by-4.0
- 最后更新:2026-04-03
- 数据集创建者:Electric Sheep Africa (https://huggingface.co/electricsheepafrica)
- 语言:英语
- 多语言性:单语
- 任务类别:表格回归、其他
- 标签:africa, humanitarian, hdx, electric-sheep-africa, climate-weather, environment, sen
数据集内容
- 摘要:本数据集包含基于次国家级行政单元聚合的旬(dekadal)降雨指标,这些指标由Climate Hazards Group InfraRed Precipitation卫星影像与现场站数据(CHIRPS)版本2以及CHIRPS-GEFS短期降雨预报计算得出。
- 地理范围:塞内加尔(SEN)
- 观测单位:时间序列观测
- 总行数:94,540
- 数据划分:
- 训练集:75,632行
- 测试集:18,908行
- 列数:17列(12个数值列,4个分类列,1个日期时间列)
核心指标
数据集包含以下降雨指标(针对每个旬期):
- 10天降雨量[毫米] (
rfh) - 1个月滚动累计降雨量[毫米] (
r1h) - 3个月滚动累计降雨量[毫米] (
r3h) - 长期平均降雨量[毫米] (
rfh_avg) - 1个月滚动累计长期平均降雨量[毫米] (
r1h_avg) - 3个月滚动累计长期平均降雨量[毫米] (
r3h_avg) - 降雨异常[%] (
rfq) - 1个月降雨异常[%] (
r1q) - 3个月降雨异常[%] (
r3q)
关键变量
- 地理:
n_pixels(用于创建聚合值的输入像素数,范围2.0–1434.0) - 时间:
date - 标识符/元数据:
adm_id(行政单元ID,范围900729.0–1001749.0)、pcode(行政单元代码,如SN05, SN0503, SN0801)、adm_level(行政级别,范围1.0–2.0)、esa_source(数据源,HDX)、esa_processed(处理日期,2026-04-08) - 数据类型:
version列指示值是基于预报(forecast)、初步产品(prelim)还是最终产品(final)
数据发布与更新周期
预报于每月6日、16日和26日发布,分别针对接下来的10天时段(旬),随后在每月1日、11日和21日更新为改进版本。初步观测在每月3日、13日和23日替换上一旬的预报,之后被最终观测所取代——最终观测于月中(13日或23日)发布,覆盖前一个月的所有三个旬期。
技术详情
- 数据格式:ML就绪的Parquet格式
- 数据清洗:列名转换为小写蛇形命名,统一了常见的缺失值标记(
N/A、null、none、-、unknown、no data、#N/A)为NaN,基于解析成功率(>85%阈值)将1列从字符串转换为数值或日期时间类型。 - 数据划分:使用固定随机种子(42)按80/20的比例划分为训练集和测试集,并保存为Snappy压缩的Parquet文件。
使用限制
- 数据来源于WFP - World Food Programme,未经Electric Sheep Africa独立验证。
- 自动清洗无法纠正原始收集中误报的值、定义不一致或抽样偏差。
- 有关发布者自身的方法说明和注意事项,请参考原始HDX数据集页面(https://data.humdata.org/dataset/sen-rainfall-subnational)。
引用格式
bibtex @dataset{hdx_africa_sen_rainfall_subnational, title = {Senegal: Rainfall Indicators at Subnational Level}, author = {WFP - World Food Programme}, year = {2026}, url = {https://data.humdata.org/dataset/sen-rainfall-subnational}, note = {Repackaged for machine learning by Electric Sheep Africa (https://huggingface.co/electricsheepafrica)} }
搜集汇总
数据集介绍

构建方式
在气候与环境科学领域,精准的降水数据对于区域水资源管理和灾害预警至关重要。该数据集以塞内加尔为地理范围,其构建过程融合了卫星遥感与地面观测数据,依托气候灾害组红外降水卫星影像与现场站点数据(CHIRPS)版本2,结合CHIRPS-GEFS短期降水预报,通过逐旬(dekad)计算并聚合至次国家级行政单元。数据涵盖多个降水指标,包括十日降水量、一月至三月的滚动累积量及其长期平均值与异常百分比,同时标注了数据来源类型(预报、初步或最终产品),并遵循世界粮食计划署的行政编码体系,确保了地理参照的一致性与权威性。
使用方法
在机器学习与气候建模应用中,该数据集可直接通过Hugging Face的datasets库加载,转换为Pandas DataFrame以进行后续分析。用户可依据日期(date)、行政编码(pcode)及数据版本(version)等字段进行时间与空间维度的筛选,利用降水指标(如rfh、r1h、r3h及其异常值rfq、r1q、r3q)开展回归预测、趋势分析或异常检测任务。数据已预处理为Parquet格式,缺失值统一为NaN,确保了即用性,同时建议参考原始HDX页面的方法论说明,以充分理解数据局限性与适用场景。
背景与挑战
背景概述
在气候科学与人道主义援助的交叉领域,精准的降雨监测对于农业规划、水资源管理和灾害预警至关重要。塞内加尔国家次国家级降雨指标数据集由世界粮食计划署(WFP)于2026年发布,并由Electric Sheep Africa机构进行机器学习格式的整理与发布。该数据集整合了气候灾害组红外降水卫星影像与地面站数据(CHIRPS)以及CHIRPS-GEFS短期降雨预报,通过次国家级行政单元进行聚合,旨在提供高时空分辨率的降雨指标时间序列。其核心研究问题聚焦于如何利用遥感技术与统计模型,量化区域降雨变异性及其异常,以支持非洲萨赫勒地区的气候适应决策与粮食安全评估,对气候学、环境科学及人道主义行动领域产生了显著的实证价值。
当前挑战
该数据集致力于解决区域降雨预测与监测的复杂挑战,其核心问题在于如何准确捕捉和量化降雨的时空异质性,尤其是在地形与气候多变的萨赫勒地区。构建过程中面临多重技术障碍,包括遥感数据与地面观测的融合校准、不同时间尺度指标(如旬值、月滚动聚合值及长期平均值)的一致性计算,以及预报数据与最终观测产品之间的时序对齐。此外,行政单元边界的动态变化与像素聚合数量的空间不均性,进一步增加了数据代表性与可比性的难度,这些挑战共同制约了模型在极端气候事件预警中的可靠性。
常用场景
经典使用场景
在气候与环境科学领域,精准的降水监测对于理解区域水文循环至关重要。该数据集以塞内加尔次国家级行政单元为空间尺度,提供了基于CHIRPS卫星影像与地面站数据融合的逐旬降水指标时间序列。其经典应用场景在于构建降水时空预测模型,通过整合历史观测值、滚动聚合量及长期平均值,研究人员能够训练机器学习算法,以预报未来旬度的降水异常与趋势,为干旱或洪涝的早期预警提供数据支撑。
解决学术问题
该数据集有效应对了气候研究中高分辨率降水数据稀缺的挑战,尤其在非洲地区。它通过提供次国家层级的标准化降水指标,包括旬降水量、1个月与3个月滚动聚合量及其异常百分比,使得学者能够深入探究降水变率的时空分异规律。这不仅促进了区域气候模型的验证与改进,也为评估气候变化对农业与水资源的潜在影响提供了量化基础,推动了环境脆弱性评估与适应性策略的跨学科研究。
实际应用
在实际应用层面,该数据集被广泛整合于人道主义援助与粮食安全规划中。世界粮食计划署等机构利用这些降水指标,实时监测塞内加尔各地的旱涝状况,从而优化资源分配与应急响应。例如,通过分析降水异常数据,决策者能够识别面临粮食短缺风险的社区,提前部署援助措施。此外,农业部门可依据降水预报调整种植计划,提升作物产量与生计韧性,体现了数据驱动决策在可持续发展中的关键作用。
数据集最近研究
最新研究方向
在气候科学与人道主义行动交叉领域,塞内加尔次国家级降雨指标数据集正推动着前沿研究。该数据集整合了CHIRPS卫星观测与GEFS短期预报,为精细化气候风险建模提供了时空连续的基础数据。当前研究热点聚焦于利用此类高分辨率降水序列,结合深度学习模型预测极端天气事件对农业产量的影响,并优化粮食安全预警系统。随着非洲气候适应行动的紧迫性提升,这类数据集在支持精准人道主义干预、评估生态脆弱性方面展现出关键价值,成为连接气候智能型决策与区域可持续发展的重要桥梁。
以上内容由遇见数据集搜集并总结生成



