five

electricsheepafrica/africa-who-ambient-air-pollution-attributable-death-rate

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ambient-air-pollution-attributable-death-rate
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“环境空气污染导致的死亡率(每10万人口,年龄标准化)”(AIR_42)在非洲国家的国家级观测数据,时间跨度为2010年至2019年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为8,460行。

This dataset contains country-level observations for the WHO GHO indicator "Ambient air pollution attributable death rate (per 100 000 population, age-standardized)" (`AIR_42`) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 8,460 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区环境空气污染归因死亡率(每10万人口,年龄标准化)这一关键健康指标。数据经过系统性采集与再封装,以Parquet格式存储,并遵循统一的模式规范。所有观测值均直接取自`NumericValue`字段的高精度浮点数,而非显示字符串,同时收录了置信区间边界值(`value_low`与`value_high`),以提升数据的统计严谨性。
特点
该数据集涵盖了2010至2019年间47个非洲国家共计8460条观测记录,按国家、年份及亚维度(如性别)进行分层组织,每个国家-年份-维度的唯一组合对应单独一行。数据列包括指示代码、国家ISO3代码、WHO区域、年份、数值点估计及置信区间等,预留了`dim1`与`dim2`字段以容纳多维度分层信息,便于用户按需筛选或跨层聚合,体现了高度的结构化与实用性。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集,调用`load_dataset`函数即可获取训练集,并便捷地转换为Pandas DataFrame进行后续分析。为聚焦双性别人群的国家级数据,可采用`dim1`字段过滤以`_BTSX`结尾的条目或缺失值;针对特定国家的时间序列研究,亦可基于`country_iso3`字段筛选并依年份排序。数据集还支持跨维度聚合,灵活适用于回归与分类任务。
背景与挑战
背景概述
该数据集名为“Africa — WHO GHO: Ambient air pollution attributable death rate (per 100 000 population, age-standardized)”,由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新打包为机器学习就绪格式。数据集覆盖2010至2019年间47个非洲国家的环境空气污染归因死亡率(每10万人口年龄标准化死亡率),共计8460条观测记录。其核心研究问题聚焦于量化非洲大陆因环境空气污染导致的健康负担,为流行病学、环境健康及公共卫生政策研究提供标准化、可复用的时空数据基础。该数据集对非洲区域的环境健康研究领域具有重要影响力,填补了高质量、结构化空气污染健康影响数据的空白,促进了数据驱动的区域健康风险评估与跨国比较分析。
当前挑战
该数据集在领域问题和构建过程中面临多重挑战。首先,环境空气污染归因死亡率的准确估算面临数据稀疏与测量差异的难题:非洲许多地区缺乏连续的地面监测站点,导致污染暴露评估依赖卫星遥感与模型插值,引入不确定性;同时,死亡登记与死因统计系统不完善,使得归因计算需依赖多重假设。其次,构建过程中,从WHO OData API获取原始数据后,需处理跨年度、跨国别的异构格式清洗、缺失值填充(如置信区间部分缺失),以及性别与城乡分层维度(SEX、RESIDENCEAREATYPE)的标准化聚合,确保数据在47国间的可比性与时间序列一致性。
常用场景
经典使用场景
该数据集聚焦于非洲地区归因于环境空气污染的年龄标准化死亡率(每10万人口),是公共卫生与流行病学领域开展跨国环境健康研究的基石。研究者常利用其覆盖2010至2019年、横跨47个非洲国家的面板数据,结合性别、城乡等亚维度划分,构建回归模型以量化空气污染暴露与人群超额死亡之间的剂量-反应关系。典型用法包括将环境污染物浓度(如PM2.5)作为核心自变量,以该死亡率指标为因变量,在控制社会经济、医疗可及性等混杂因素后,评估空气污染对非洲人群健康负担的贡献度。此外,数据集内嵌的置信区间信息为不确定性传播分析和贝叶斯风险评估提供了宝贵素材,使其成为时间序列分析、随机效应模型以及机器学习预测任务中备受青睐的数据源头。
衍生相关工作
基于该数据集衍生了多项具有影响力的开创性工作。在学术领域,研究者利用其与WHO全球卫生观察站(GHO)其他指标(如非传染性疾病死亡率、卫生设施覆盖率)的衔接能力,构建了集成式数据库,从而催生出阐明空气污染与心血管疾病、儿童呼吸系统感染共病模式的联合暴露反应模型。在开源社区及数据科学实践中,Electric Sheep Africa将其纳入统一的非洲数据仓库,成为创建跨国家健康不平等指数、训练时序预测模型以及开发交互式地理可视化仪表盘(如非洲空气污染归因负担地图集)的标准化素材。此外,数据集中记录的维度分层(如SEX_BTSX)启发了若干关于性别差异在环境健康脆弱性中的统计分析方法论文,推动了分层因果推断技术在该领域的广泛应用,使得数据集已超越单一指标载体,成为连接全球健康大数据与区域精细化决策之间的桥梁。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆因环境空气污染导致的归因死亡率(年龄标准化,每10万人),为评估气候变化与人类健康交互效应提供了关键量化基础。当前前沿研究将其融入机器学习驱动的全球疾病负担预测模型,尤其是结合WHO全球健康观察站(GHO)的长期时序数据,探索非洲国家在2010至2019年间空气污染死亡率的时空动态与异质性。伴随联合国可持续发展目标(SDGs)中健康与清洁空气议题的升温,该数据集被广泛应用于环境流行病学中的可归因风险评估、性别与城乡亚组差异分析,以及政策干预效果的准实验研究。其标准化Parquet格式与置信区间字段的保留,极大促进了跨区域比较与贝叶斯层次建模,成为驱动非洲健康数据公平性与AI for Global Health的关键资源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务