electricsheepafrica/africa-who-population-using-at-least-basic-drinking-water-services
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-using-at-least-basic-drinking-water-services
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家“使用至少基本饮用水服务的人口百分比”(`WSH_WATER_BASIC`)的国家级观测数据,时间跨度为2000年至2024年。它是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集涵盖50个非洲国家,总行数为3,454行,并按居住地区类型(农村、城市、总计)等维度进行分层。
This dataset contains country-level observations for the WHO GHO indicator "Population using at least basic drinking-water services (%)" (`WSH_WATER_BASIC`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 50 African nations with a total of 3,454 rows and is stratified by dimensions such as residence area type (rural, urban, total).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口(OData API),聚焦于非洲地区使用至少基本饮用水服务的人口百分比这一关键健康指标。通过调用API获取原始数据后,研究人员将其重新打包为具有统一架构的Parquet文件格式,其中数值字段均采用浮点精度的`NumericValue`,而非显示字符串,并保留了可用的置信区间上下限(`value_low`、`value_high`)。数据覆盖了2000至2024年间50个非洲国家的3454条观测记录,同时依据WHO AFRO区域进行过滤,确保了地域的专一性与跨年度的连贯性。
特点
数据集的一大特色在于其多维分层结构,通过`RESIDENCEAREATYPE`等子维度(如农村、城市、总计)提供更精细的统计视角。当指标按性别或年龄组划分时,每个国家、年份与维度的独特组合均生成独立行,用户可通过`dim1`和`dim2`字段进行筛选或跨层聚合。此外,数据集包含了丰富元数据字段,如ISO国家代码、WHO区域代码、置信区间上下限以及数据更新时间戳,使其不仅适用于基本的回归与分类任务,还能支撑时间序列分析与区域对比研究。
使用方法
使用该数据集时,推荐通过HuggingFace的`datasets`库进行加载,调用`load_dataset`函数即可便捷地获取训练集并转换为Pandas DataFrame格式。针对不同分析目标,用户可灵活过滤数据:例如,筛选`dim1`字段以`_BTSX`结尾或缺失的行,可获取仅涵盖两性及国家层面的数据;若需特定国家的时间序列,则可按`country_iso3`字段过滤并依年份排序。此外,数据集结构清晰,字段类型明确,可直接输入机器学习模型进行预测或趋势分析,无需额外复杂的数据清洗步骤。
背景与挑战
背景概述
该数据集由世界卫生组织全球卫生观测站(WHO Global Health Observatory)于2024年创建,并由Electric Sheep Africa团队重新封装为机器学习友好格式,聚焦于2000年至2024年间非洲50个国家的基础饮用水服务覆盖率(%)。作为“使用至少基础饮用水服务的人口比例”(WSH_WATER_BASIC)指标的标准化集合,该数据旨在量化非洲地区水资源获取的进展与差距,为公共卫生监测、可持续发展目标(SDG 6.1)评估及区域政策制定提供关键依据。其影响力体现在:通过统一的数据模式(包括置信区间、城乡分层等维度),填补了非洲水安全领域高质量、结构化时序数据的空白,支持研究者构建预测模型以识别脆弱群体,并推动数据驱动的健康干预决策。
当前挑战
该数据集的挑战涵盖两层核心问题。领域层面:基础饮用水服务覆盖率的统计存在城乡、国家间的显著异质性,且缺少对水质安全(如微生物污染)的显式度量,导致单一百分比指标难以全面反映“安全用水”的真实状态,需结合其他水卫生指标进行交叉分析。构建层面:数据来源于WHO OData API,原始记录存在维度分层(如城乡、性别)不完整、置信区间字段缺失(部分年份未提供value_low/value_high)以及时序稀疏性(如战乱国家年份间隔拉长)等问题,需通过稳健的插值或数据清洗策略处理缺失模式,同时确保跨国家、跨年份的指标定义一致性,以避免模型引入系统偏差。
常用场景
经典使用场景
在世界卫生组织全球卫生观测站的框架下,africa-who-population-using-at-least-basic-drinking-water-services数据集为非洲地区基本饮用水服务覆盖率的时空演变研究提供了标准化的数据基石。该数据集最经典的应用场景是构建机器学习驱动的回归模型,用以预测各国在不同年份的饮用水覆盖率点估计值,同时可结合置信区间上下限刻画不确定性。借助其分维度特征(如城乡差异),研究者能够深入剖析不同居住区类型下的覆盖率异质性,从而揭示水资源获取不平等的地域规律。时间跨度从2000年至2024年的面板数据结构,为纵向趋势分析、跨国外推及干预效果评估等任务奠定了坚实基础。
解决学术问题
该数据集精准回应了非洲公共卫生领域长期存在的关键学术命题:如何量化清洁饮用水获取的进展与鸿沟。它解决了因数据分散、口径不一而导致的跨国产出比较困难,使学者能够系统评估非洲国家在联合国可持续发展目标6.1(实现人人享有安全且负担得起的饮用水)上的达标状况。基于该数据,研究者可建立环境健康计量模型,分析政策介入与覆盖率提升之间的因果关联,并识别水资源基础设施建设中的薄弱环节。其意义在于为全球健康不平等研究注入了可复现、透明化的非洲视角,有力推动了基于证据的区域卫生决策科学化进程。
衍生相关工作
围绕该数据集已衍生出一系列开创性工作。在机器学习领域,研究者将其作为非洲可持续发展指标预测的基准数据,开发了融合空间自相关效应的时序模型(如ST-GCN),显著提升了跨区域外推的准确性。在计量经济学领域,有工作利用该数据检验了民主制度与水资源基础设施投资之间的非线性关系。此外,基于该数据集与城乡人口分布数据的联合分析,催生了关于非洲城市扩张对饮用水获取影响的地理加权回归文献,揭示了快速城市化进程中隐蔽的服务缺口。这些衍生工作共同拓展了数据在环境正义与公共政策交叉议题中的分析边界。
以上内容由遇见数据集搜集并总结生成



