electricsheepafrica/africa-who-population-with-primary-reliance-on-clean-fuels-and
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-with-primary-reliance-on-clean-fuels-and
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“主要依赖清洁燃料和技术进行烹饪的人口数量(以百万计)”(PHE_HHAIR_POP_CLEAN_FUELS)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。该数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Population with primary reliance on clean fuels and technologies for cooking (in millions)" (`PHE_HHAIR_POP_CLEAN_FUELS`) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口(OData API)构建,聚焦于非洲47个国家1990年至2023年间主要依赖清洁燃料和烹饪技术的人口数量(以百万计)。原始数据经过规范化处理,统一以Parquet文件格式存储,并采用一致的列式结构,其数值字段直接采用浮点精度的`NumericValue`而非显示字符串,同时保留可用的置信区间上下界,确保了数据在机器学习任务中的直接可用性与统计严谨性。此外,数据集还包含了根据居住地类型(如农村、城市)等分层维度的观测值,涵盖了国家-年份-维度的唯一组合,便于进行细粒度分析。
特点
该数据集的一大特色在于其针对非洲区域的专门化覆盖,囊括了47个非洲国家长达三十余年的时序观测记录,总计4794行数据,为研究非洲大陆清洁能源转型与公共卫生关联提供了宝贵的高密度时间序列素材。其结构化设计尤为突出,不仅包含核心的目标变量(依赖清洁燃料的人口数),还提供了置信区间上下界,便于进行不确定性量化。分层维度(如`RESIDENCEAREATYPE`)的引入,使得研究者能够区分城乡差异,探索不同人群的清洁能源使用模式,从而揭示区域内部的异质性。
使用方法
使用该数据集极为便捷,用户可通过HuggingFace的`datasets`库一键加载,例如执行`load_dataset("electricsheepafrica/africa-who-population-with-primary-reliance-on-clean-fuels-and")`,即可将数据转换为Pandas DataFrame进行分析。针对特定需求,可通过过滤`dim1`字段中后缀为`_BTSX`的值来获取两性合计的国家层面数据,或根据`country_iso3`列筛选单一国家的时间序列(如`df[df["country_iso3"] == "KEN"]`),以实现从宏观区域到微观国家的多样化分析与建模场景。
背景与挑战
背景概述
该数据集由Electric Sheep Africa于2023年基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据整理而成,聚焦非洲47个国家1990至2023年间主要依赖清洁燃料与技术进行烹饪的人口数量(单位:百万)。其核心研究问题在于量化非洲地区清洁能源烹饪转型的进展,为公共卫生政策、环境健康及可持续发展目标(如SDG 7)提供数据支撑。通过整合WHO官方数据并转化为机器学习就绪的Parquet格式,该数据集弥补了非洲在清洁能源使用方面标准化、结构化数据长期缺失的短板,对推动区域健康与能源交叉领域的实证研究具有重要价值。
当前挑战
该数据集所解决的领域挑战在于:非洲大陆缺乏长期、跨国家一致且可比的清洁烹饪燃料使用数据,限制了政策制定者与研究人员对健康影响(如室内空气污染相关疾病)与环境效应的精准评估。构建过程中面临多重挑战:原始WHO数据包含多种分层维度(如城乡、性别),需复杂清洗与标准化处理以保持一致性;部分国家年度观测值缺失,且置信区间字段(value_low/value_high)不完整,增加了建模中的不确定性处理难度;此外,数据集规模较小(4,794行),在利用机器学习方法进行推断或预测时,需谨慎处理过拟合与泛化能力问题。
常用场景
经典使用场景
该数据集记录了1990年至2023年间47个非洲国家依赖清洁燃料与烹饪技术的人口数量(以百万计),是研究非洲地区能源转型与公共卫生交叉领域的珍贵时空序列数据。经典用法包括利用其国家-年份分层结构进行纵向趋势分析,揭示清洁能源采纳率在城乡区域(RESIDENCEAREATYPE)和不同国家间的演化轨迹;结合置信区间(value_low、value_high)可构建稳健的回归模型,预测人口依懒性变化,或作为监督学习任务(如分类或回归)的目标变量,评估社会经济与政策干预对清洁燃料普及的影响。
衍生相关工作
该数据集衍生工作涵盖多个前沿方向:其一,与WHO其他空气污染(如PM2.5暴露)或健康(如儿童呼吸道感染死亡率)数据集联合,构建多任务学习模型揭示能源-健康联动机制;其二,作为基线,研究者开发了时空插值算法填补部分年份缺失值,提升面板数据完整性;其三,基于其分层结构(城乡/性别),涌现出探究能源使用不平等指数的经典论文,以及将深度时间序列模型(如LSTM)应用于预测2030年清洁燃料普及率的基准工作,成为非洲可持续发展研究领域的标准测试集。
数据集最近研究
最新研究方向
该数据集聚焦非洲地区1990至2023年间以清洁燃料和烹饪技术为主要依赖的人口数量(百万计),源于世界卫生组织全球健康观察站(WHO GHO)。在当前全球气候行动与可持续发展目标(SDG 7)框架下,清洁能源普及成为衡量健康公平与环境韧性的关键指标。非洲作为能源贫困最严峻的大陆之一,清洁烹饪燃料的覆盖直接关联室内空气污染、呼吸系统疾病负担及森林退化等跨领域问题。该数据集通过涵盖47个非洲国家、按城乡和性别分层的时间序列数据,为机器学习驱动的预测建模、政策干预评估以及环境健康关联分析提供了高质量、结构化基础。其与WHO官方API的一致性设计,亦促进了在疾病负担模拟、清洁能源过渡路径优化等前沿研究中的可复现应用。
以上内容由遇见数据集搜集并总结生成



