electricsheepafrica/africa-who-household-air-pollution-attributable-death-rate
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-air-pollution-attributable-death-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“家庭空气污染导致的死亡率(每10万人口,年龄标准化)”(`AIR_52`)在非洲国家的观测数据,时间跨度为2010年至2019年。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Household air pollution attributable death rate (per 100 000 population, age-standardized)" (`AIR_52`) across African nations, spanning 2010–2019. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源于世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区因家庭空气污染导致的年龄标准化死亡率(每10万人口)。数据以Parquet格式重新封装,采用统一的模式结构,确保机器学习就绪。所有数值均源自高精度的NumericValue字段,而非显示字符串,并附带了置信区间上下界(value_low与value_high),以增强数据的统计严谨性。数据集覆盖2010至2019年间47个非洲国家的8460条观测记录,并依据WHO AFRO区域进行筛选,确保地理聚焦的精确性。
特点
该数据集的核心特色在于其多维分层结构,允许研究者通过SEX、RESIDENCEAREATYPE等维度进行精细分析。每个国家、年份与子维度的组合生成独立行,用户可通过dim1与dim2字段灵活筛选特定分层(如性别或城乡),或跨层聚合以获取宏观视角。此外,点估计值与置信区间的同步提供,使得不确定性量化成为可能,适合用于稳健的回归建模或分类任务。数据集规模适中(1K至10K),兼顾了计算效率与统计代表性。
使用方法
数据集可通过HuggingFace的datasets库便捷加载,调用load_dataset('electricsheepafrica/africa-who-household-air-pollution-attributable-death-rate')即可获取,并支持直接转换为Pandas DataFrame进行后续分析。为规避分层带来的冗余,用户可过滤dim1字段以提取仅包含全性别(SEX_BTSX)或缺失值的数据,从而聚焦于国家级整体估计。时间序列分析亦可通过按国家ISO代码(如KEN)与年份排序实现,适用于纵向趋势研究或预测任务。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年整理并发布在HuggingFace平台,源自世界卫生组织(WHO)全球卫生观察站(GHO)的官方指标AIR_52,聚焦于非洲47个国家2010至2019年间因家庭空气污染导致的年龄标准化死亡率(每10万人口)。家庭空气污染作为全球主要的环境健康风险因素之一,尤其在撒哈拉以南非洲地区尤为突出,该数据集的创建旨在为机器学习研究提供统一、可复用的结构化数据,以支持区域健康差异分析、时间趋势建模以及可持续发展目标(SDG)相关指标的追踪。它填补了非洲大陆在环境健康领域精细量化数据的空白,成为流行病学、公共卫生政策及人工智能交叉研究的重要基准资源。
当前挑战
该数据集所解决的领域问题核心在于量化家庭空气污染对非洲人群健康负担的精确影响,挑战在于死亡率的估算通常依赖于现场调查与统计建模的融合,而非洲多国缺乏连续可靠的死因登记系统,导致数据稀缺且质量参差不齐。构建过程中面临多重困难:WHO原始数据接口返回的指标可能按性别(SEX)或居住区域(如城乡)分层,不同年份和国家的维度组合不一致,需精细清洗与标准化;同时,置信区间字段并非所有观测均完整,需要处理大量缺失值;此外,区域覆盖虽达47国,但时间跨度仅10年,限制了长周期趋势分析与极端事件的建模能力,且因数据粒度为国别级别,无法捕获次国家级空间异质性,制约了高分辨率风险评估模型的开发。
常用场景
经典使用场景
非洲地区因家庭空气污染导致的年龄标准化死亡率(每10万人口)是衡量室内环境健康风险的关键指标。该数据集的核心应用场景在于构建回归预测模型,以解析性别、年份与国家维度下死亡率的时空演变规律。研究者可基于此数据开展面板数据分析,量化不同非洲国家间家庭空气污染健康负担的异质性,为环境流行病学中的暴露-反应关系建模提供标准化基础。
解决学术问题
数据集系统性地填补了非洲大陆家庭空气污染健康影响领域高质量、机器可读面板数据的空白。其价值在于解决了跨国家、多年份死亡率比较中数据标准不统一、粒度粗糙的学术瓶颈。通过提供性别分层与置信区间信息,数据赋能研究者对疾病负担估算中的不确定性进行严谨评估,显著提升了非洲地区环境健康归因分析的可信度与科学性。
衍生相关工作
该数据集驱动了多个前沿研究方向的拓展,包括利用时空统计模型预测非洲未观测年份的死亡率趋势,以及结合遥感与人口普查数据构建多层次暴露评估框架。相关经典工作涵盖基于机器学习的家庭能源转换对健康效益的因果推断研究,以及将此处数据作为金标准验证低分辨率代理指标有效性的校正研究,显著加速了非洲环境健康数据分析生态的成熟。
以上内容由遇见数据集搜集并总结生成



