electricsheepafrica/africa-who-household-air-pollution-attributable-dalys-air15
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-air-pollution-attributable-dalys-air15
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2010-2019年间由家庭空气污染导致的DALYs(残疾调整生命年)的观测数据,数据来源于WHO Global Health Observatory。数据集覆盖了47个非洲国家,包含8,930行数据,并提供了数值估计、置信区间等信息。此外,数据集还包含了按性别等维度分层的子维度数据。数据以Parquet格式提供,适用于机器学习任务。
This dataset contains country-level observations for the WHO GHO indicator Household air pollution attributable DALYs (AIR_15) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球健康观察站(WHO GHO)的开放数据API,聚焦于非洲地区因家庭空气污染所致的伤残调整生命年(DALYs)这一关键健康指标(代码AIR_15)。数据经过系统性抽取与重封装,以Parquet格式存储,并统一为机器学习的标准化模式。所有数值均来自原始的浮点精度字段NumericValue,以确保精度,同时保留了置信区间上下界(value_low与value_high)等辅助信息。数据集涵盖了2010至2019年间47个非洲国家的观测值,共计8930条记录,并依据WHO非洲区域(ParentLocationCode='AFR')进行了区域筛选,确保了地域聚焦的准确性与完整性。
特点
该数据集的一大显著特征在于其多维度分层结构。除核心的估计值外,还引入了性别(SEX)等子维度,每个国家与年份的组合可根据不同的分层标准产生多条独立记录,为细粒度分析提供了可能。此外,数据集提供了包括点估计值、置信区间、格式化显示字符串、维度类型与数值、以及数据更新时间戳在内的丰富字段,构成了一个全面且自洽的信息体系。这种结构设计使得研究者能够灵活地按需过滤(如筛选全国层面的两性合计数据)或跨层汇总,极大提升了数据的探索价值与建模灵活性。
使用方法
使用该数据集进行机器学习或数据分析研究极为简便。通过HuggingFace的datasets库,用户可一键加载数据,并以熟悉的Pandas DataFrame格式进行操作。例如,可通过过滤'dim1'字段中后缀为'_BTSX'或为空的行来快速获取全国范围、两性合计的基准数据。针对特定国家的时间序列分析,则可通过对'country_iso3'字段进行条件筛选并与'year'字段排序来轻松实现。这种直观的数据操作接口,结合其标准化的列名与类型,使得从流行病学研究到预测模型构建的各类下游任务均能高效开展。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年重新整理并发布,源自世界卫生组织(WHO)全球健康观察站(GHO),聚焦于非洲地区因家庭空气污染导致的伤残调整生命年(DALYs)的估算。核心研究问题在于量化2010至2019年间47个非洲国家中家庭空气污染对健康负担的影响,提供标准化、机器学习友好的数据格式以支持跨区域比较与趋势分析。作为非洲健康数据系统化整合的重要尝试,该数据集填补了该区域空气质量健康影响建模的数据空白,为流行病学研究、政策制定及可持续发展目标(SDGs)的监测提供了关键支撑。
当前挑战
数据集所解决的领域挑战在于:家庭空气污染是撒哈拉以南非洲地区可预防死亡和疾病的主要环境风险因素之一,但此前缺乏统一、机器可读的跨国面板数据,限制了深度学习与统计模型在健康影响评估中的应用。构建过程中面临的挑战包括:整合来源分散、格式不一的WHO OData API数据,确保47个国家十年间指标的时空一致性;处理因性别或居住地域等分层变量导致的重复观测问题,需设计多维过滤策略以还原真实子群体负担;此外,部分年份或国家的置信区间数据缺失,需谨慎处理以维持模型推断的稳健性。
常用场景
经典使用场景
该数据集汇聚了2010至2019年间47个非洲国家的家庭空气污染归因伤残调整寿命年(DALYs)指标,为探究室内空气污染对健康的长期影响提供了珍贵的纵向数据。研究者可借助此数据集进行面板数据分析,评估不同性别、城乡亚群之间的健康负担差异,并构建预测模型以刻画DALYs随时间和空间的变化趋势。此外,该数据集的结构化设计使得机器学习任务如回归预测和分类分析变得简便,尤其适合用于监督学习框架下的健康状况建模。
解决学术问题
该数据集解决了非洲地区家庭空气污染健康负担长期缺乏标准化、可复用定量数据的关键问题。学术界通过此数据能够量化室内空气污染对非洲人口健康损失的贡献,并揭示性别和城乡维度下的不平等分布特征。这为环境流行病学、全球健康经济学以及公共卫生政策评估等领域的实证研究提供了坚实的数据基础。数据集的存在极大地推动了非洲地区健康负担归因分析的标准化和可重复性,促进了跨国家、跨时间的比较研究。
衍生相关工作
该数据集衍生了一系列重要的学术工作,包括基于时空统计模型的风险预测研究、利用机器学习方法进行的健康损失归因分析,以及聚焦性别差异的流行病学调查报告。相关研究常将此数据集与其他环境暴露数据(如PM2.5浓度)结合,构建多源融合的健康影响评估框架。此外,该数据集的出版也催生了关于非洲地区健康数据开放共享的讨论,推动了类似数据基础设施项目的建立,促进了数据驱动下的全球健康公平性研究。
以上内容由遇见数据集搜集并总结生成



