five

electricsheepafrica/africa-who-joint-effects-of-air-pollution-attributable-deaths

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-joint-effects-of-air-pollution-attributable-deaths
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2010-2019年间WHO GHO指标空气污染导致的联合死亡效应(AIR_35)的国家级观测数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值都来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,共8,460行数据。

This dataset contains country-level observations for the WHO GHO indicator Joint effects of air pollution attributable deaths (AIR_35) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 8,460 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)开放数据API,聚焦于非洲大陆空气污染归因死亡的联合效应指标(AIR_35)。Electric Sheep Africa团队以Parquet文件格式对原始数据进行重新封装,保留统一的字段架构。数据涵盖2010至2019年间47个非洲国家的8,460条观测记录,所有数值均直接采用高精度的浮点型字段NumericValue,而非字符串显示值。当指标按性别或居住地类型等维度分层时,每个国家、年份与维度的组合均生成独立行,并附有意者提供置信区间边界值,便于后续统计推断。
特点
数据集专为非洲区域设计,严格限定为WHO非洲区(ParentLocationCode = 'AFR'),确保了地理聚焦的纯粹性。其独特之处在于引入了多维分层机制,包含SEX(如两性、男性、女性)和RESIDENCEAREATYPE(如农村、城市)等子维度,使用户能够灵活筛选出不同人口子群的风险暴露情况。每一条记录均保留点估计值与高低置信区间,为科学分析与预测建模提供了完整的概率分布信息,体现了高数据颗粒度与可靠性。
使用方法
数据集可通过HuggingFace的datasets库便捷加载,一行代码即可将全部数据转换为pandas DataFrame,便于后续清洗与建模。用户可利用dim1列的值模式(如以_BTSX结尾)快速提取全国总人口水平的数据,或通过country_iso3列进行单一国家的时间序列分析。还支持按年份、维度组合进行分组聚合,以适应面板数据回归或多层级统计分析的需求。建议在训练模型前,依据具体科研目标过滤不必要的分层变量,以提升计算效率。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于近年整理并发布,核心数据源自世界卫生组织(WHO)全球卫生观察站(GHO)的开放API,聚焦非洲47个国家在2010至2019年间因空气污染联合效应导致的死亡人数。作为非洲地区健康数据机器学习的统一资源库,该数据集以结构化表格形式呈现,包含点估计值及其置信区间,按性别和居住地区类型等维度分层,旨在为空气污染健康负担的量化分析提供标准化、可直接用于建模的训练数据。其发布填补了非洲地区高分辨率环境健康数据的空白,对推动全球南方环境流行病学研究和公共卫生决策具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于,非洲大陆长期缺乏系统、一致且机器可读的空气污染健康影响数据,导致全球疾病负担评估中的非洲区域估计往往依赖模型外推,缺乏本土实证支撑。构建过程中的挑战包括:从WHO API中提取并清洗47国十年间的异构数据,确保不同国家、年份和分层维度(如性别、城乡)下数据记录的完整性;处理置信区间缺失值、多维度交叉分类以及数值型与显示型字段的转换;统一不同数据源的编码格式与时间戳,最终形成8,460行可复现、可验证的机器学习就绪数据集,为后续建模消除了数据碎片化和预处理瓶颈。
常用场景
经典使用场景
该数据集聚焦于非洲地区归因于空气污染的联合效应所致死亡人数这一关键健康指标,是环境流行病学与全球健康交叉研究中的宝贵资源。经典使用场景涵盖对空气污染健康负担的时空建模,研究者可利用国家、年份及性别分层数据,构建面板回归或时间序列模型,量化非洲各国因空气污染导致的超额死亡率,并评估其变化趋势。数据集的表格分类与回归双重属性支持分类任务(如高风险国家识别)与回归任务(如死亡率的连续预测),使其适用于监督学习范式下的预测与归因分析。
衍生相关工作
围绕此数据集衍生出的经典工作主要集中于环境健康计量创新与跨源数据融合领域。研究者常将其与卫星遥感气溶胶数据、地面监测站污染物浓度记录相联合,构建预测推断模型以填补观测空白。此外,该数据集激励了性别分层效应分析以及城乡差异比较的实证研究,并催生出基于机器学习的空气污染健康预警系统原型。其结构化格式与CC-BY许可亦促进了开放科学社区中可复现分析管线的开发。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区空气污染导致的死亡归因分析,为全球健康与环境交叉领域的前沿研究提供了关键支撑。近期,随着WHO《全球空气质量指南》更新及非洲快速城市化进程中空气污染加剧的现实,该数据被广泛用于量化PM2.5等污染物的健康负担,通过时空建模揭示非洲47国2010-2019年间性别、区域维度下的死亡分布差异。这一研究不仅推动了“大气污染-公共卫生”跨学科方法论创新,还为非洲国家制定本地化减排政策及SDG 3.9(减少危险化学品与空气污染导致的死亡)进展评估提供了实证依据,突显了大数据在环境正义与全球健康治理中的战略价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务