electricsheepafrica/africa-who-population-with-primary-reliance-on-polluting-fuels-and
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-with-primary-reliance-on-polluting-fuels-and
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标主要依赖污染燃料和技术进行烹饪的人口(以百万计)(`PHE_HHAIR_POP_POLLUTING_FUELS`)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Population with primary reliance on polluting fuels and technologies for cooking (in millions) (`PHE_HHAIR_POP_POLLUTING_FUELS`) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经由Electric Sheep Africa团队统一整理与封装,形成面向机器学习任务的结构化数据仓库。数据涵盖1990至2023年间47个非洲国家,共计4794条观测记录,全部取自WHO原始指标的NumericValue字段,而非格式化展示字符串。置信区间上下限(value_low, value_high)在可用时一并纳入。数据集以Parquet格式存储,搭配一致的列式架构,便于大规模批量处理与跨数据集联合分析。
特点
数据集聚焦于“主要依赖污染燃料与烹饪技术的人口数量”这一核心健康指标,具备多维分层特性。除国家与年份外,还按居住区域类型(城市、农村、总体)进行细分,每条记录均可通过dim1与dim2字段定位至特定层级。数据集中所有观测均来源于WHO AFRO区域,覆盖47个非洲国家,时间跨度长达34年,为分析该区域室内空气污染暴露趋势、能源转型进程及其健康影响提供了丰富而细粒度的纵向依据。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集并转换为Pandas DataFrame,以便进行后续分析与建模。加载后,建议首先利用dim1字段过滤出所需的分层维度,例如筛选后缀为_BTSX的行以获取两性合并的全国级数据。对于时序分析,可按国家ISO代码与年份排序,提取特定国家的时间序列。数据集中value_numeric字段可作为回归任务的目标变量,置信区间则可辅助评估估计的不确定性,适用于健康指标预测、能源政策评估等场景。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,源自世界卫生组织全球健康观察站(WHO GHO),专注于非洲国家1990至2023年间主要依赖污染燃料和技术进行烹饪的人口数量(以百万计),指标代码为PHE_HHAIR_POP_POLLUTING_FUELS。其核心研究问题在于量化家庭能源使用中污染燃料的依赖程度,以揭示室内空气污染对公众健康的长期威胁。作为非洲区域细分数据的重要补充,该数据集共涵盖47个国家、4794条观测记录,并提供了城乡分层与置信区间信息,为健康政策评估、可持续发展目标监测及环境流行病学研究奠定了结构化数据基础,推动了非洲健康数据的机器学习可及性与标准化进程。
当前挑战
该数据集所应对的领域挑战,首先在于非洲大陆长期缺乏细粒度、时序一致的家庭空气污染暴露数据,导致政策制定者难以精准识别高危人群并评估清洁能源转型的卫生效益。其次,构建过程中面临多重障碍,包括WHO原始API数据以字符串形式混杂数值与注释,需提取NumericValue并剥离置信区间;不同国家因统计能力差异导致稀疏缺失值,且城乡分层(RESIDENCEAREATYPE)数据不完整;此外,多年份跨度的调查方法与定义变迁可能引入系统偏差,需权衡时间序列的一致性损失与数据完整性,对建模时的数据清洗与缺失值处理提出了严苛要求。
常用场景
经典使用场景
在公共卫生与环境健康交叉研究领域,该数据集以非洲国家为地理单元,系统记录了1990至2023年间依赖污染性燃料和烹饪技术的人口数量(以百万计),并细分为城乡群体与国家整体水平。研究者可将其作为核心指标,用于量化分析清洁能源转型的进程、追踪室内空气污染暴露风险的时间演变,或结合社会经济数据探讨能源贫困的空间分布格局。数据集的纵向架构尤为适合构建面板数据模型,以揭示非洲大陆在可持续发展目标(SDG 7)框架下实现清洁能源普及的挑战与进展。
解决学术问题
该数据集精准回应了全球健康与能源公平领域的关键学术疑问:非洲大陆因使用固体燃料和低效炉灶而导致的健康负担究竟有多严重,且这种负担在时间与空间维度上如何分布。它为验证“能源转型滞后加剧呼吸系统疾病与过早死亡风险”这一假说提供了实证基础,并支持学者量化评估清洁炊事干预政策的边际效益。数据集中的置信区间字段更赋予研究以严谨的不确定性分析能力,推动定量研究从描述统计迈向因果推断。
衍生相关工作
围绕该数据集已衍生出一系列标志性工作,包括利用时空序列建模预测非洲各国清洁能源普及拐点,以及结合卫星遥感数据与人口统计信息构建高分辨率暴露风险地图。部分研究进一步将其与疾病负担数据(如急性下呼吸道感染发病率)关联,运用计量经济学方法估算污染燃料使用对儿童死亡率的人口归因分数。这些衍生工作在顶级公共卫生期刊和环境科学期刊上发表,形成了从数据驱动到政策转译的完整研究链条。
以上内容由遇见数据集搜集并总结生成



