five

electricsheepafrica/africa-who-ambient-and-household-air-pollution-attributable-death-rate

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ambient-and-household-air-pollution-attributable-death-rate
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2010年至2019年间由世界卫生组织全球健康观察站(WHO GHO)提供的环境与家庭空气污染相关死亡率(每10万人口,年龄标准化)数据。数据来源于WHO GHO OData API,并以Parquet格式重新打包,包含数值估计、置信区间和显示字符串等信息。数据集覆盖47个非洲国家,共计8,460行数据,并按性别等维度分层。

This dataset contains country-level observations for the WHO GHO indicator "Ambient and household air pollution attributable death rate (per 100 000 population, age-standardized)" (`SDGAIRBODA`) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa项目重新打包为具备统一模式的Parquet文件。数据聚焦非洲地区,涵盖47个非洲国家在2010至2019年间因环境与家庭空气污染导致的年龄标准化死亡率(每10万人口),共计8460条观测记录。所有数值均采用浮点精度的原始数值字段,而非显示字符串,并尽可能纳入置信区间上下界,确保数据精度与统计分析的可信度。
特点
数据集以国家-年份为基本单元,并支持性别(如两性、女性、男性)等子维度分层,每个维度组合以独立行呈现,便于精细化筛选。其结构包含指标代码、国家ISO3代码、WHO区域、年份、点估计值、置信区间、显示字符串及维度信息等13个字段。数据覆盖47个非洲国家,时间跨度完整,并统一使用WHO AFRO区域代码,为非洲环境健康领域的机器学习与跨时空对比研究提供了高一致性、易用性的结构化样本。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,例如使用`load_dataset("electricsheepafrica/africa-who-ambient-and-household-air-pollution-attributable-death-rate")`,获取`train`集并转换为pandas DataFrame。为聚焦分析,可依据性别维度过滤仅保留两性数据,或按国家ISO3代码提取特定国家的时间序列,如过滤`country_iso3 == 'KEN'`后按年份排序,从而支持区域公共卫生评估、空气污染健康影响建模及可持续发展目标(SDG)监测等任务。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理自世界卫生组织(WHO)全球卫生观察站(GHO),旨在提供非洲国家2010至2019年间因环境与家庭空气污染导致的年龄标准化死亡率(每10万人口)。作为SDG指标SDGAIRBODA的核心数据来源,该数据集覆盖47个非洲国家,共计8,460条观测记录,是评估非洲大陆空气污染健康负担的重要资源。通过整合WHO官方API数据并以Parquet格式标准化发布,该数据集为机器学习驱动的公共卫生研究奠定了坚实基础,尤其在可持续发展目标(SDG)框架下追踪空气污染归因死亡率的时空演变方面具有显著影响力。
当前挑战
该数据集面临的多重挑战集中于领域问题与构建过程两方面。领域层面,空气污染归因死亡的精确估算长期受限于混杂因素(如吸烟、职业暴露等)的干扰,且非洲地区基础健康监测系统的薄弱导致部分国家数据稀疏或不完整。构建过程中,数据来源分散于WHO不同维度(性别、城乡等)的层级化统计,如何在不破坏跨维度可比性的前提下统一字段格式、处理分层变量(如dim1/dim2)的缺失值,成为关键瓶颈。此外,置信区间的可用性随年份与地区波动,需谨慎处理异质性以规避模型偏差。
常用场景
经典使用场景
该数据集汇聚了2010至2019年间47个非洲国家因环境与家庭空气污染导致的年龄标准化死亡率数据,为研究空气污染健康负担提供了珍贵的时间序列观测。经典使用场景包括构建多国面板回归模型,量化社会经济、能源结构或政策干预对死亡率时空演变的影响;也常用于训练机器学习模型,基于国别特征预测未观测年份或区域的死亡风险,揭示非洲大陆内部的异质性格局。
实际应用
在实际应用中,该数据集可为非洲各国卫生部门与WHO区域办公室制定空气污染防治策略提供循证依据。例如,通过识别高死亡率热点国家,指导有限资源向清洁能源普及、住房通风改造等干预措施倾斜;同时,死亡率的时序变化可被用于评估已有政策(如燃料标准提升)的实效,推动健康影响评估工具在发展规划中的常态化嵌入。
衍生相关工作
该数据集衍生了一系列开创性工作,包括构建非洲首套国家级空气污染归因死亡率预测基准,驱动对比多种插值与极端梯度提升算法性能的研究;它也被集成到全球疾病负担比较分析中,催生了跨国空气污染健康影响的不确定性量化体系。此外,基于其数据结构的标准化处理流程,诞生了可复用的‘Electric Sheep Africa’数据工具包,促进了非洲健康数据科学社区的协作发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务