electricsheepafrica/africa-who-household-air-pollution-attributable-deaths
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-air-pollution-attributable-deaths
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标家庭空气污染导致的死亡(AIR_11)在非洲国家的国家级观察数据,时间跨度为2010年至2019年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为8,460条,并包含按性别等子维度的分层数据。
This dataset contains country-level observations for the WHO GHO indicator Household air pollution attributable deaths (AIR_11) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 8,460 rows and includes stratified data by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData应用程序接口,聚焦于非洲国家因室内空气污染导致的死亡人数(指标代码AIR_11),时间跨度覆盖2010至2019年。原始数据经由管路清洗、格式统一后,以Parquet文件格式重新封装,构建为机器学习就绪的标准化数据集。数据收录了47个非洲国家的8460条观测记录,每条记录包含点估计值、置信区间上下界及性别、居住地区类型等分层维度信息,确保直接复用WHO官方提供的浮点精度数值,而非显示字符串。
特点
该数据集的核心优势在于其高结构化与多层次分组的特征设计。除了基本的国家、年份与数值字段外,数据集引入了dim1和dim2两套维度变量,用于支持按性别(如SEX_BTSX表示两性合计)或居住区域类型进行精细拆分。同时,数据集中包含了value_low与value_high置信区间字段,为用户评估估计的不确定性提供了直接依据。所有记录均附有WHO数据更新戳记,便于追溯数据版本,整体设计兼具统计严谨性与机器学习应用的便利性。
使用方法
数据集可直接通过HuggingFace的datasets库加载为原生Dataset对象,继而转换为pandas DataFrame进行深度分析。典型用法包括过滤出两性合计的国家级数据(通过筛选dim1列以'_BTSX'结尾或为空的行),以及按国家ISO三字母代码提取特定国家的时间序列,如筛选country_iso3为'KEN'的肯尼亚数据并依年份排序。用户亦可依据dim1或dim2字段聚合不同分层下的指标值,以适应多元回归或分类建模需求,整体操作路径清晰而灵活。
背景与挑战
背景概述
该数据集名为“Africa — WHO GHO: Household air pollution attributable deaths”,由Electric Sheep Africa团队于近期整理并发布,数据源自世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据接口。核心研究问题聚焦于量化非洲大陆因家庭空气污染导致的过早死亡人数,旨在通过标准化、机器学习就绪的格式,促进对非洲地区环境健康负担的深入分析。作为首个覆盖47个非洲国家、时间跨度2010至2019年的统一数据集,它填补了该区域健康数据碎片化的空白,为环境流行病学、公共卫生政策及可持续发展目标的评估提供了关键基准,对推动非洲空气污染治理与健康干预研究具有重要影响。
当前挑战
该数据集所解决的领域问题挑战在于:家庭空气污染是非洲首要的环境健康风险因素之一,但此前缺乏跨国家、长时间序列的可比性数据,导致区域疾病负担评估不精确与政策制定偏差。构建过程中的挑战包括:1)从WHO OData API中提取并清洗不同API版本、变量编码与显示格式的异构数据,确保NumericValue字段的准确性与一致性;2)处理分维度(如性别、城乡)的层级结构,需要合理保留维度标签并设计便于聚合的统一模式;3)解决部分国家缺失年度观测值、置信区间不完整及数据更新滞后的问题,以维护时间序列的完整性和模型训练可靠性。
常用场景
经典使用场景
在环境健康与流行病学研究领域,该数据集作为世界卫生组织全球健康观测站发布的标准化指标,为评估家庭空气污染导致的过早死亡负担提供了高颗粒度的国家层面时间序列数据。其经典使用场景包括构建线性回归或时间序列模型,以量化非洲47个国家在2010至2019年间因固体燃料烹饪等室内污染源引发的死亡率变化趋势,并纳入性别子维度进行分层分析,从而揭示不同人群的风险差异。数据集的完整置信区间字段还能支持不确定性传播分析,增强建模结果的稳健性。
衍生相关工作
该数据集衍生出了多项具有学术影响力的经典工作。其中,基于AIR_11指标构建的贝叶斯层次模型被用于估计缺失国家的死亡风险,并扩展出与室外空气污染、室内水污染等多因素联合暴露的交互效应分析。此外,研究人员利用其标准化架构训练了面向非洲健康指标的预训练回归Transformer,用于跨年份的死亡率外推预测;还有团队将数据与夜间灯光遥感图像对齐,探索了城市化进程与家庭空气污染死亡负担之间的非线性耦合关系。这些工作共同推动了数据驱动型环境流行病学方法的发展。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区因家庭空气污染导致的过早死亡负担,是WHO全球卫生观察站核心指标之一。最新研究趋势正从单纯统计死亡率转向融合气候、能源转型与健康公平的交叉分析,例如结合清洁烹饪政策推广、城镇化进程中生物质燃料使用变化等热点事件,量化其对公共卫生的长期影响。数据覆盖47个非洲国家2010至2019年的连续观测,尤其适用于构建多维度时间序列模型,以揭示性别、城乡等分层维度的暴露差异,为联合国可持续发展目标7(可负担清洁能源)及目标3(良好健康福祉)提供数据驱动的决策支撑。
以上内容由遇见数据集搜集并总结生成



