five

electricsheepafrica/africa-who-population-with-primary-reliance-on-fuels-and-technologies

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-with-primary-reliance-on-fuels-and-technologies
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标主要依赖不同燃料和技术进行烹饪的人口数量(以百万计)(PHE_HHAIR_POP_CATEGORY_FUELS)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。数据来源于WHO Global Health Observatory的OData API,并重新打包为Parquet文件,具有一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为28,764行,并包含居住地区类型(农村、城市等)的子维度。

This dataset contains country-level observations for the WHO GHO indicator Population with primary reliance on fuels and technologies for cooking, by fuel type (in millions) (PHE_HHAIR_POP_CATEGORY_FUELS) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 28,764 rows and includes sub-dimensions such as residence area type (rural, urban, etc.).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区1990至2023年间各国居民烹饪所用燃料与技术的依赖人群规模(单位:百万人)。数据以Parquet格式统一封装,保留了浮点精度的`NumericValue`字段作为核心数值,并同步收录置信区间边界(`value_low`与`value_high`)。覆盖WHO非洲区域的47个国家,共计28764条观测记录,每条记录均包含国家代码、年份、指标代码等标准字段,并依据居住地类型(如城市、农村、总计)等维度进行了分层处理,形成国家×年份×维度的唯一组合行。
特点
该数据集的核心特色在于其结构化与机器学习的友好性。依托于Electric Sheep Africa项目的统一清洗框架,数据以一致的列模式(Schema)存储,包括`indicator_code`、`country_iso3`、`year`、`value_numeric`等关键属性,同时提供了`dim1`与`dim2`两个维度字段,支持按性别或居住地类型等分层子群进行精细化筛选。与原始API相比,数据集摒弃了显示字符串的歧义,直接采用浮点数值,并保留了置信区间信息,为统计推断与模型不确定性量化提供了便利。整体规模适中,适合中小型非洲卫生能源分析任务。
使用方法
使用方法简洁高效,支持通过HuggingFace的`datasets`库直接加载为Pandas DataFrame。用户可调用`load_dataset`函数获取训练集,随后利用`dim1`字段过滤特定子群(如全国两性合计数据:`df[df['dim1'].str.endswith('_BTSX')]`),或按国家ISO3代码(如`KEN`)切片时间序列数据进行趋势分析。数据已预清洗,无需额外处理即可直接用于回归或分类建模。推荐结合WHO其他非洲健康指标联合分析,以探究能源使用与健康结果间的关联。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年整理并发布,依托世界卫生组织全球卫生观察站(WHO GHO)的官方数据,聚焦非洲47个国家1990至2023年间不同燃料类型烹饪人群的规模。核心研究问题在于量化非洲大陆居民对固体燃料、清洁能源等不同烹饪能源的依赖程度,以揭示能源贫困与公共卫生之间的深层关联。作为首个面向机器学习的非洲能源健康标准化数据集,它弥补了该区域高时间分辨率数据的空白,为可持续发展目标(SDG 7)的监测、室内空气污染流行病学研究及清洁能源政策评估提供了关键支撑,推动了跨学科数据驱动研究在非洲的应用。
当前挑战
该数据集面临的挑战首先体现在领域问题层面:非洲烹饪能源结构极其复杂,离散的燃料类型分类(如木材、木炭、液化石油气)难以捕捉真实的多燃料混用模式,且数据依赖国家调查的回顾性报告,存在回忆偏差与统计口径不一致。构建过程中,WHO原始数据存在大量缺失值(特别是置信区间字段)、地理覆盖不均衡(部分小岛国数据稀疏)以及时间序列断裂,亟需对跨越34年的异构数据进行标准化清洗、分层维度(如城乡、性别)的重组与对齐,同时需处理因行政边界变更或调查方法调整带来的结构性突变,以保证时序分析的可靠性。
常用场景
经典使用场景
在全球公共卫生与能源公平的研究版图中,该数据集常被用于量化分析非洲各国不同燃料类型在烹饪中的依赖程度。研究者可利用其跨越1990至2023年的时间序列与城乡分层维度,构建面板数据模型,以追踪清洁燃料(如电力、液化石油气)与传统固体燃料(如木柴、木炭)使用比例的动态演变。其结构化字段如国家ISO代码、年份及置信区间,为进行多国横向比较或单一国家的纵向趋势分析提供了标准化基础,尤其适合评估能源转型政策在非洲区域的阶段性成效。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门与国际发展机构规划清洁烹饪干预措施提供了数据驱动的决策支持。例如,结合人口统计数据,可识别出依赖高污染燃料的‘热点’区域与脆弱群体,指导生物质炉具替换计划或液化石油气补贴政策的地域优先级。此外,能源企业可依据不同燃料类型的使用人数规模,评估农村电气化的潜在市场需求;环境政策制定者亦能基于该数据估算家庭能源消费产生的黑碳排放量,服务于国家自主贡献(NDC)目标中的减排路径设计。
衍生相关工作
围绕该数据集衍生了多项标志性研究工作,例如基于其时间序列的特征工程与聚类分析,被用于构建非洲能源转型路径的机器学习预测模型。部分学者将其与DHS(人口健康调查)数据中的室内空气质量指标联合分析,发现了燃料类型与孕产妇死亡率之间的非线性关联。另有工作利用其城乡分层维度,结合夜间灯光遥感数据,验证了城市化进程中能源阶梯理论的区域异质性,并开发了面向非洲的高分辨率清洁燃料可及性地图。此外,该数据集作为‘Electric Sheep Africa’语料库的核心组件,支撑了多个开源卫生指标预测竞赛的标准基准集设计。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务