five

electricsheepafrica/africa-who-ambient-air-pollution-attributable-dalys-air7

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-ambient-air-pollution-attributable-dalys-air7
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2010-2019年间由世界卫生组织全球健康观察站(WHO GHO)提供的环境空气污染导致的残疾调整生命年(DALYs)指标数据(AIR_7)。数据来源于WHO全球健康观察站的OData API,并被重新打包为Parquet文件,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为8,460行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator Ambient air pollution attributable DALYs (AIR_7) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口(OData API),针对非洲区域(WHO AFRO)的47个国家,系统采集了2010至2019年间环境空气污染归因伤残调整寿命年(DALYs)的指标数据。原始数据经过标准化清洗与重组,以Parquet格式存储,并统一采用数值型字段(NumericValue)作为核心观测值,同时保留置信区间上下限等辅助信息。数据集通过按国家、年份及性别、区域等子维度进行分层整理,形成了8460条记录的规整表格,为机器学习任务提供了可直接使用的结构化数据资源。
特点
该数据集具备多个突出特性。其一,聚焦非洲区域,覆盖47个国家长达十年的观测序列,具有明确的区域针对性和时间连续性。其二,数据源自权威的WHO GHO平台,来源可靠,并采用CC BY 4.0许可协议,便于学术与商业复用。其三,数据结构清晰,包含indicator_code、country_iso3、year等关键字段,并支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度进行精细筛选或聚合分析。此外,数据集已按统一的ML-ready格式优化,缺失值处理与类型转换等预清洗工作已完成,显著降低了后续建模的数据预处理成本。
使用方法
该数据集可通过HuggingFace的datasets库直接加载,一行代码即可获取完整训练集并转换为Pandas DataFrame,方便进行探索性分析与建模。研究人员可依据country_iso3字段筛选特定国家的时间序列数据,或利用dim1字段过滤出按性别分层的子集(如仅保留SEX_BTSX以获取总体两性数据)。同时支持按年、区域或置信区间进行聚合与统计分析,适用于回归、分类及时间序列预测等任务。数据集亦兼容常见的机器学习框架(如scikit-learn、XGBoost),能够无缝融入现有的数据科学工作流中。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)提供,经Electric Sheep Africa团队整理并发布于HuggingFace平台,时间覆盖2010年至2019年,聚焦非洲47个国家的环境空气污染所致伤残调整寿命年(DALYs)指标(AIR_7)。DALYs作为衡量疾病负担的核心指标,整合了因早死和残疾导致的健康寿命损失,能够直观反映空气污染对非洲居民健康的深远影响。在全球环境健康研究领域,非洲大陆因数据稀疏而长期处于边缘地位,该数据集的发布填补了区域级高分辨率健康影响数据的空白,为机器学习驱动的政策制定、流行病学建模及跨国对比研究提供了关键支撑。其公开、标准化的格式(Parquet)与CC-BY 4.0许可协议,显著降低了数据分析门槛,促进了全球公共卫生领域的协作与创新。
当前挑战
该数据集面临的核心挑战在于领域问题的复杂性与构建过程的稀缺性。在领域层面,环境空气污染所致DALYs的归因估算需整合污染暴露、人口脆弱性与健康结局等多维度变量,而非洲各国监测站点稀疏、数据采集标准不一,导致现有估算高度依赖卫星遥感和模型外推,不确定性显著。构建过程中,原始WHO数据存在维度分层(如性别、居住地类型)带来的稀疏性问题,部分年份与国家组合的置信区间缺失(value_low/value_high为NaN),结构化清洗时需处理缺失值、跨维度聚合与一致性校验。此外,数据集覆盖仅十年,难以捕捉长期健康趋势,而空气污染与其他非传染性疾病的交互影响(如心血管与呼吸系统疾病叠加)进一步增加了归因分析的难度。
常用场景
经典使用场景
该数据集汇聚了2010年至2019年间47个非洲国家的环境空气污染归因伤残调整生命年(DALYs)指标,是评估空气污染对非洲大陆人群健康影响的标准化数据资源。其经典使用场景包括构建回归模型以量化空气污染暴露水平与疾病负担之间的剂量-反应关系,或通过分类任务识别不同性别、城乡区域等亚组间的健康风险差异。研究者可借助该数据集的时间序列特征,开展纵向分析以揭示空气污染健康影响的演变趋势,为制定区域性公共卫生干预策略提供实证依据。
衍生相关工作
该数据集衍生了一系列重要的学术工作,包括基于机器学习的非洲空气污染健康风险预测模型研究、时空贝叶斯统计方法在稀疏数据插补中的应用,以及多源异构数据融合下的环境暴露-反应函数校准。研究者还利用其结构化分维度特性,开发了性别敏感的疾病负担分解算法,并催生了对比不同大陆间空气污染健康效应的跨国比较分析。这些工作不仅提升了数据自身的分析价值,更推动了环境健康科学中可重复性研究和开放数据标准的建立。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆由环境空气污染所导致的伤残调整寿命年(DALYs)损失,为全球健康与空气污染交叉领域的前沿研究提供了关键数据支撑。伴随着非洲城市化加速和工业排放激增,空气污染已成为该区域疾病负担的核心驱动因素之一。基于WHO全球卫生观察站2010至2019年间覆盖47个非洲国家的官方统计,该数据集不仅纳入了性别与居住地类型的亚组分层,还提供了置信区间信息,极大增强了环境健康风险评估的精度。当前,学界正利用此类细粒度时空数据,结合机器学习模型探究污染暴露与心血管疾病、呼吸系统疾病的动态关联,为非洲国家制定因地制宜的清洁空气政策和全球疾病控制战略提供了量化依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务