electricsheepafrica/africa-who-ambient-air-pollution-attributable-deaths
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ambient-air-pollution-attributable-deaths
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2010-2019年间由世界卫生组织全球健康观察站(WHO GHO)指标环境空气污染导致的死亡(AIR_41)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为8,460行。数据集的列包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间等。
This dataset contains country-level observations for the WHO GHO indicator Ambient air pollution attributable deaths (AIR_41) across African nations, spanning 2010–2019. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 8,460 rows. Columns include indicator code, country ISO3 code, WHO region code, year, numeric value estimate, confidence intervals, etc.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区环境空气污染所致死亡人数(指标代码AIR_41)的国别观测数据。涵盖2010至2019年间47个非洲国家的8460条记录,所有数值均提取自精确浮点字段NumericValue,同时保留了置信区间上下限(value_low与value_high)。数据以Parquet格式统一封装,并按照一致的字段模式进行整理,便于机器学习应用的直接加载。此外,部分指标按性别(SEX)等维度进行了分层,形成国家、年份与亚维度的唯一组合,丰富了数据颗粒度。
特点
该数据集具有显著的结构化与可扩展特征。首要特点是来源权威,全部数据均来自WHO GHO官方开放接口,并遵循CC BY 4.0许可协议。其次,数据覆盖了47个非洲国家及完整的十年时间序列,为纵向与横向分析提供了坚实基础。第三,包含点估计值及置信区间,使得不确定性量化成为可能。第四,支持按性别等维度进行筛选或聚合,满足多视角研究需求。最后,采用Parquet格式存储,兼顾了高效的压缩与快速的列式读取性能。
使用方法
使用者可通过HuggingFace的datasets库便捷加载,仅需一行代码即可获得训练集格式的数据。典型应用包括基于pandas的数据转换与过滤,例如使用布尔索引筛选‘两性’(SEX_BTSX)或国家层面的记录,也可针对特定ISO代码(如KEN)提取时间序列。数据既适用于监督学习中的回归任务(以value_numeric为目标变量),也可用于分类场景或流行病学趋势分析。建议在建模前依据dim1和dim2字段合理选择或聚合分层维度,并利用置信区间进行不确定性评估。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年前后整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的官方指标“环境空气污染归因死亡人数”(AIR_41),聚焦非洲47个国家在2010至2019年间的面板数据。核心研究问题在于量化非洲大陆因细颗粒物等环境空气污染物暴露所导致的过早死亡负担,以支持区域乃至全球的空气质量政策与公共卫生干预。作为首个面向机器学习友好的非洲空气污染健康影响开源数据集,它填补了该领域数据碎片化、格式不统一的空白,为流行病学建模、环境健康不平等研究及可持续发展目标(SDG 3.9.1)的监测提供了关键数据基础,对推动非洲健康与环境交叉领域的计算性研究具有显著影响力。
当前挑战
该数据集所应对的核心领域挑战,在于非洲大陆长期缺乏系统、标准化的环境空气污染健康结局数据,难以进行跨国家、跨时间维度的可靠归因分析,尤其是在资源有限、监测网络稀疏的条件下,传统估算方法常受限于数据稀疏性与建模偏差。构建过程中亦面临多重挑战:原始WHO GHO数据以OData API提供,格式异构且包含非数值化字段,需进行大规模清洗与结构化转换;数据存在部分国家年份缺失与置信区间不完整的情况,需审慎处理缺失值与异质性误差;此外,数据按性别、居住区域等维度分层,需设计统一模式以保留细粒度信息,同时确保与下游机器学习模型的无缝集成。
常用场景
经典使用场景
在全球环境健康监测的宏大叙事中,环境空气污染归因死亡人数数据集(africa-who-ambient-air-pollution-attributable-deaths)如同一面棱镜,折射出非洲大陆空气污染对人群健康的深远影响。该数据集最经典的使用场景是作为时序分析与空间比较的基石,研究者可借助其跨越2010至2019年、覆盖47个非洲国家的面板数据,剖析不同性别、不同地区因环境空气污染导致的死亡负担演变轨迹。通过过滤性别分层维度或聚焦单一国家的时间序列,学者能够精准捕捉污染归因死亡的动态规律,为后续建模与政策干预提供可靠的数据支撑。
实际应用
在现实世界的决策链条中,该数据集扮演着政策罗盘的角色,其实际应用聚焦于公共卫生资源优化配置与空气质量标准的本地化校准。非洲各国卫生部门与环境监管机构可借助这些归因死亡数据,识别空气污染健康风险最高的重点国家与敏感人群,从而指导控污政策的优先序安排,例如将有限的呼吸科医疗资源向死亡负担陡增的区域倾斜。此外,国际发展组织与联合国机构可基于此数据集评估《巴黎协定》等全球议程在非洲地区的健康协同效益,为气候与卫生交叉领域的投资决策提供量化依据。
衍生相关工作
该数据集的衍生之力体现在它作为基准锚点催生了一系列算法与模型创新。围绕这一核心数据,研究者已发展出基于时空图网络的非洲污染归因死亡预测框架,将污染物浓度、气象条件与人口流动信息嵌入模型,实现了对死亡风险的动态预警。另有工作将其与卫星遥感-derived PM2.5浓度数据进行嵌套,运用贝叶斯分层模型拆解污染暴露-健康响应关系中的非线性阈值效应,推动环境流行病学的统计学工具从线性回归向非参数估计跨越。这些衍生研究反过来又推动了WHO全球健康观测站数据的标准化处理流程,形成了从原始统计到ML就绪数据集的完整链路。
以上内容由遇见数据集搜集并总结生成



