electricsheepafrica/africa-who-population-using-safely-managed-sanitation-services
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-using-safely-managed-sanitation-services
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标使用安全卫生服务的人口百分比(`WSH_SANITATION_SAFELY_MANAGED`)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。这是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分,一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator Population using safely managed sanitation services (%) (`WSH_SANITATION_SAFELY_MANAGED`) across African nations, spanning 2000–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
在全球公共卫生领域,安全管理的卫生设施覆盖率是评估可持续发展目标进展的关键指标。本数据集聚焦非洲地区,系统整理了世界卫生组织全球卫生观察站(WHO GHO)中“使用安全管理卫生设施的人口比例”这一核心指标(代码WSH_SANITATION_SAFELY_MANAGED)的观测数据。数据通过OData API从WHO源头直接采集,经清洗与标准化后以Parquet格式存储,确保机器学习就绪性。数值字段采用浮点精度的NumericValue,而非显示字符串,并保留了上下置信区间边界(value_low、value_high)以支持不确定性分析。数据集覆盖2000至2024年间33个非洲国家的2245条记录,每条观测按国家、年份及居住地类型(农村、城市、总计)等子维度进行分层,形成country×year×dimension的独特组合。
特点
本数据集的核心特点在于其专业性与结构化。所有数据均源自WHO官方授权的CC BY 4.0许可资源,经由Electric Sheep Africa项目整合,保证了来源的权威性与合规性。数据集不仅提供了点估计值作为主要的机器学习目标变量,还囊括了上下置信区间,为统计推断与误差分析提供了坚实基础。其模式设计巧妙融入了次维度(dim1/dim2)字段,允许研究者针对性别、居住地类型等分层特征进行精细筛选或跨层聚合,灵活适配从全国总览到亚群分析的多元研究需求。此外,一致性的列式架构与Parquet的高效存储格式,使得数据加载、查询与后续建模流程极为顺畅。
使用方法
该数据集的使用极为便捷,与HuggingFace生态系统深度集成。用户可通过一行Python代码`load_dataset("electricsheepafrica/africa-who-population-using-safely-managed-sanitation-services")`直接加载,并利用返回的Dataset对象快速转换为Pandas DataFrame进行探索。针对不同分析粒度,推荐先过滤维1字段以聚焦双性全国层(如末尾含_BTSX或为空的值),从而获得无亚组干扰的国家级时间序列。对于国别分析,则可按`country_iso3`进行筛选并按年份排序,如对肯尼亚数据的提取与排序操作。数据集兼容分类与回归两大类任务,便于研究人员直接将其作为监督学习模型的输入特征或目标标签。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO),核心指标为非洲国家使用得到安全管理的环境卫生设施的人口百分比(WSH_SANITATION_SAFELY_MANAGED)。数据集覆盖2000至2024年间33个非洲国家的2245条观测记录,按居住地类型提供了城乡及国家层面分层数据。作为首个面向机器学习的非洲环境卫生标准化数据集,它填补了该领域高质量、结构化数据的空白,为统计建模、政策评估及可持续发展目标(SDG 6.2)的量化分析提供了关键数据支撑,有力推动了非洲公共卫生领域的数据驱动研究。
当前挑战
该数据集所解决的领域问题在于,非洲地区环境卫生设施覆盖率长期缺乏系统、可靠且粒度统一的量化数据,导致难以精准评估进展、识别脆弱群体和制定干预政策。构建过程中面临的主要挑战包括:原始WHO数据存在指标维度复杂、缺失值及置信区间标注不一致等问题,需进行多层清洗与标准化处理;多国数据来源口径差异(如城乡划分标准不同)增加了跨时间与跨地区可比性的建模难度;此外,数据频率稀疏(部分国家年份缺失)以及子维度(如居住地类型)的分层聚合,也对模型鲁棒性和泛化能力提出了考验。
常用场景
经典使用场景
该数据集由世界卫生组织全球卫生观察站整理,聚焦于非洲各国2000至2024年间安全管理的卫生设施使用人口比例。作为一项统计型时序数据,其经典使用场景在于追踪和比较不同非洲国家在基本卫生服务覆盖方面的长期演变趋势,揭示城乡之间、国家之间的差异格局。研究者可依据‘居住地类型’维度进行分层分析,洞察农村与城市社区在卫生设施可及性上的鸿沟,为理解公共卫生基础设施的区域不均衡性提供了坚实的数据支撑。
衍生相关工作
该数据集催生了一系列基于非洲区域卫生指标的衍生研究工作,包括但不限于:利用机器学习回归模型预测未观测年份的卫生设施覆盖率以填补数据空白;结合气候与降雨数据探索环境卫生与水源性疾病爆发的关联机制;以及将其整合进多维贫困指数模型,量化卫生服务缺陷对人力资本积累的制约效应。此外,已有学者基于此数据开发了非洲卫生设施覆盖变化的空间显式可视化工具,深化了公共卫生地图制图与动态监测的学术实践,促进了交叉学科方法的融合与创新。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区安全管理的卫生设施使用率,当前前沿研究方向包括:利用时空建模与机器学习算法,揭示2000至2024年间非洲33国卫生服务覆盖的动态演化与区域不平等性;结合世界卫生组织全球卫生观察站数据,探索城乡差异与政策干预效果间的关联机制;以及通过置信区间信息量化数据不确定性,为可持续发展目标(SDG 6.2)中的卫生指标监测提供稳健的预测依据。这些研究对推动非洲公共卫生决策的精准化、促进跨境卫生资源优化配置具有深远意义,尤其在应对城市化加速与气候变化背景下的卫生挑战时,该数据集成为不可或缺的量化基石。
以上内容由遇见数据集搜集并总结生成



