electricsheepafrica/africa-who-household-and-ambient-air-pollution-attributable-dalys-air60
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-and-ambient-air-pollution-attributable-dalys-air60
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2010-2019年间由家庭和环境空气污染导致的DALYs(残疾调整生命年)的国别观测数据,是WHO GHO指标AIR_60的一部分。数据来源于WHO Global Health Observatory,并重新打包为Parquet格式文件。数据集覆盖了47个非洲国家,总共有8,930行数据。数据集中还包括了置信区间边界(value_low, value_high)等信息。
This dataset contains country-level observations for the WHO GHO indicator Household and ambient air pollution attributable DALYs (`AIR_60`) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区归因于家庭与环境空气污染的伤残调整生命年(DALYs)指标(代码AIR_60)。数据经过系统化抽取与重构,以Parquet格式存储,并遵循统一的列式架构。所有数值均采纳原始API提供的浮点精度字段NumericValue,而非显示字符串,同时整合了可获取的置信区间上下界。覆盖2010至2019年间47个非洲国家的8,930条观测记录,按国家、年份及性别等子维度组织,每一个国家-年份-维度的组合形成独立行,便于精细化分析。
特点
数据集具有显著的细分维度特性,包含性别分类(如两性、女性、男性),并预留居住地类型等第二维度字段,用户可按需筛选特定分层或跨层聚合。每条记录除核心的点估计值外,还携带置信区间边界,提升了统计推断的严谨性。数据来源权威,经由Electric Sheep Africa二次整理,确保与WHO原始数据一致,并采用CC BY 4.0许可协议,便于学术与产业界复用。该集合面向机器学习场景优化,可直接与HuggingFace Datasets库无缝衔接。
使用方法
通过HuggingFace的datasets库即可一键加载数据集,命令为load_dataset('electricsheepafrica/africa-who-household-and-ambient-air-pollution-attributable-dalys-air60')。加载后默认获取训练集,可转换为Pandas DataFrame进行后续操作。用户若需提取国家层面且两性合并不分亚组的数据,可通过筛选dim1字段以'_BTSX'结尾或为空值的行实现。研究特定国家时间序列时,可利用country_iso3列过滤并依据year列排序,从而构建纵向分析框架。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织全球健康观察站(WHO GHO)的开放数据重新整理而成,聚焦于非洲47个国家在2010至2019年间因家庭和周围空气污染导致的伤残调整生命年(DALYs)。核心研究问题在于量化空气污染对非洲地区居民健康负担的时空分布,为公共卫生政策制定与干预措施提供数据支撑。作为首个面向机器学习的非洲空气质量健康损失标准化数据集,它填补了该区域在健康指标结构化数据上的空白,对推动非洲环境健康流行病学研究和跨国家比较分析具有重要价值。
当前挑战
该数据集致力于解决的领域挑战是非洲地区空气污染健康影响的多维度量化问题,包括性别、城乡等亚组差异的精细刻画,以及利用置信区间评估不确定性。构建过程中面临的挑战包括:从WHO OData API中解析多元分层结构(如性别与居住地类型),确保数据一致性与完整性;处理47个国家10年跨度内近9000条记录中部分缺失的置信区间数据;将原始显示字符串转换为浮点数值并统一Parquet格式,以兼容机器学习工作流。
常用场景
经典使用场景
该数据集记录了非洲47个国家2010至2019年间家庭与环境空气污染所导致的伤残调整生命年(DALYs)指标,是评估空气污染健康负担的核心数据资源。经典使用场景包括基于国家-年份-性别分层的时间序列建模与趋势分析,研究者可借助数值型目标变量、置信区间以及多维度划分信息(如性别、城乡类型),构建回归或分类模型,用于预测空气污染对人群健康的量化影响。数据集的规范化结构和Parquet存储格式使其能无缝集成入机器学习流水线,适用于缺失值插补、区域聚类分析及污染干预效果的后验评估。
实际应用
在公共卫生政策制定与非营利组织运营中,该数据集具备直接且关键的应用价值。借助各国家-年份的DALYs数值,国际卫生机构能够精准识别空气污染治理的优先区域与脆弱人群,从而优化有限资源的配置,例如将清洁能源推广项目部署在该指标高企的地区。同时,该数据可为世界卫生组织“空气质量与健康”专项评估提供定量参照,辅助各国政府部门进行环境规制达标情况的回溯检验。在流行病监测体系中,它也能够作为基准曲线,用于衡量突发污染事件(如野火、沙尘暴)对区域健康影响的偏离程度。
衍生相关工作
围绕此数据集已衍生出多项具有代表性的研究与实践工作。一方面,Electric Sheep Africa项目将其纳入统一的机器学习就绪仓库,促进了跨指标融合分析与全非洲面板数据集的构建;另一方面,该数据常与卫星遥感反演的PM2.5浓度数据、大气化学传输模型输出结果进行联合分析,衍生出基于贝叶斯时空模型的环境健康归因方法。此外,部分学者以该数据集为因变量,构建了社会经济指标(如GDP、卫生支出)对空气污染健康损失的回归模型,从而为发展经济学中的“环境-健康-发展”三角关系提供实证支撑。
以上内容由遇见数据集搜集并总结生成



