electricsheepafrica/africa-who-proportion-of-population-with-primary-reliance-on-fuels-and
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-proportion-of-population-with-primary-reliance-on-fuels-and
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标主要依赖燃料和技术进行烹饪的人口比例,按燃料类型分类(%)(PHE_HHAIR_PROP_POP_CATEGORY_FUELS)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。数据直接从WHO Global Health Observatory的OData API获取,并重新打包为具有一致模式的Parquet文件。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为28,764条。
This dataset contains country-level observations for the WHO GHO indicator Proportion of population with primary reliance on fuels and technologies for cooking, by fuel type (%) (PHE_HHAIR_PROP_POP_CATEGORY_FUELS) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 28,764 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,经Electric Sheep Africa团队系统性地重新整理与封装后生成。数据以Parquet格式存储,采用一致性模式结构,所有数值均取自精确浮点字段NumericValue,而非展示字符串。数据集涵盖1990至2023年间47个非洲国家的观测记录,共计28,764行,并依照WHO AFRO区域标准限定ParentLocationCode为AFR。每条观测包含国家代码、年份、点估计值及其置信区间上下界,并依据居住地类型等子维度进行分层,每一独特组合均形成独立数据行。
使用方法
用户可通过HuggingFace datasets库便捷加载该数据集,调用load_dataset函数即可获取包含完整模式的数据表,并支持转换为pandas DataFrame进行后续分析。针对不同分析需求,可通过过滤dim1字段中后缀为BTSX的值或直接对国家ISO3代码进行筛选,快速提取全国层面或特定国家的时间序列数据。数据集可直接应用于表格分类与回归任务,亦可作为机器学习模型的输入特征,并支持按年份、国家或子维度聚合后再进行分析建模。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,来源于世界卫生组织(WHO)全球卫生观察站,聚焦于1990至2023年间非洲47个国家中依赖特定燃料与技术进行烹饪的人口比例。作为一项重要的公共卫生指标,该数据揭示了清洁能源获取与室内空气污染之间的深层关联,为评估非洲地区可持续发展目标(SDG 7)的进展提供了关键量化依据。通过整合WHO官方提供的分层统计信息,该数据集不仅支持多维度分析,还为机器学习驱动的区域健康研究奠定了基础,对推动数据驱动的全球健康政策制定具有显著影响力。
当前挑战
该数据集面临的核心挑战在于处理高维异构性与数据稀疏性。首先,由于WHO统计指标涵盖城乡、性别等分层维度,导致特征空间膨胀,而非洲部分国家因历史或经济原因在多年份中数据缺失,形成不均衡的学习样本。其次,构建过程中需从复杂API中抽取并统一质量不一致的原始浮点数值,同时保留置信区间元数据,这对清洗与标准化流程提出较高要求。此外,如何有效应对跨分层聚合时的统计偏差以及时间序列中的极端值干扰,是保障模型稳健性与解释性的关键难题。
常用场景
经典使用场景
该数据集捕捉了1990至2023年间47个非洲国家不同燃料类型(如传统生物质、现代清洁能源)的烹饪能源依赖比例,是评估非洲大陆能源转型与健康风险交叉领域的重要工具。经典使用场景包括基于时空特征的监督学习任务,如预测特定年份某国依赖固体燃料的人口比例,或基于地理与经济协变量对烹饪燃料类型进行分类。数据集提供的置信区间字段还可用于不确定性量化建模,支撑对能源贫困程度的稳健估计。其结构化的面板数据形式尤其适用于长序列时间序列分析、分层回归以及跨国家比较研究。
解决学术问题
该数据集直面两个核心学术挑战:一是量化非洲家庭烹饪能源结构演变与室内空气污染暴露之间的关系,二是在数据稀疏的非洲区域建立可靠的统计估计基准。它解决了长期以来因缺乏统一、细致标注面板数据而难以进行跨国产出比较的问题,为环境流行病学、发展经济学和公共卫生等领域提供了可复现的实证基础。通过纳入居住地类型(城乡)等亚群维度,该数据揭示出能源不平等在空间上的细微差异,推动了关于清洁能源可及性与健康结局之间的因果推断研究。
实际应用
在实践中,该数据集支撑了多项关键决策工具的构建,包括为世界卫生组织成员国报告可持续发展目标7.1.2指标(依赖清洁燃料的人口比例)提供数据底座。非政府组织和研究人员利用它识别需要优先干预的高暴露区域,例如在撒哈拉以南非洲传统固体燃料使用率超过90%的乡村,从而指导清洁炉灶推广项目的资源分配。同时,该数据与卫星遥感、气象数据融合,可用于实时预警室内污染对呼吸系统疾病的影响,辅助制定减轻妇女儿童健康负担的公共卫生政策。
数据集最近研究
最新研究方向
在全球健康议题中,清洁烹饪燃料的普及率是评估室内空气污染与可持续发展目标(SDG 7)进展的核心指标。本数据集聚焦非洲47国1990至2023年间不同燃料类型的人口依赖比例,为机器学习驱动的区域性健康风险评估与能源政策建模提供了高颗粒度结构化数据。结合WHO全球卫生观察站(GHO)的官方统计,该数据集明确了城乡与性别分层维度,支持针对非洲“清洁烹饪转型”热点的时序分析和干预效果预测。当前研究前沿正在利用此类数据集量化清洁燃料普及与心肺疾病负担的关联,尤其是在非洲能源转型加速的背景下,该资源为填补低收入地区环境健康建模的数据鸿沟提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



