five

electricsheepafrica/africa-who-household-air-pollution-attributable-dalys-air39

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-air-pollution-attributable-dalys-air39
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2010-2019年间世界卫生组织全球健康观察指标“家庭空气污染导致的年龄标准化DALYs(每10万人)”(AIR_39)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Household air pollution attributable DALYs (per 100 000, age-standardized)" (`AIR_39`) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,旨在追踪非洲国家因室内空气污染导致的伤残调整生命年(DALYs,每10万人年龄标准化比率)。数据涵盖2010至2019年间的47个非洲国家,共8930条观测记录,均以Parquet格式存储并统一架构。所有数值均取自API返回的浮点精度字段NumericValue,并包含置信区间上下界。构建过程中,通过WHO AFRO区域代码筛选,确保数据聚焦非洲区域,同时保留原始分维度信息,如性别分类(SEX_BTSX、SEX_FMLE、SEX_MLE),便于不同粒度的分析需求。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset函数即可获得训练集数据,并转换为Pandas DataFrame进行后续操作。例如,通过过滤dim1字段中值为SEX_BTSX或缺失的行,可提取两性全国层面的指标。对于时间序列分析,可按国家代码(如KEN)筛选并依年份排序。该数据集适合应用于回归任务(预测DALYs值)、分类任务(如阈值划分)以及时空建模。建议在使用前检查维度字段,避免忽略分层变量导致的偏误。代码示例详见README文件中的Python片段。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)及其全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新整理为机器学习友好格式,发布于HuggingFace平台,时间跨度涵盖2010至2019年。其核心研究问题聚焦于量化非洲地区因家庭空气污染所导致的伤残调整生命年(DALYs)损失,以每10万人年龄标准化率呈现。家庭空气污染作为非洲区域突出的公共卫生挑战,与使用固体燃料烹饪和取暖密切相关,该数据集通过提供47个非洲国家的标准化指标(代码AIR_39),为环境健康、流行病学及政策评估等领域提供了关键数据基础,显著推动了区域间比较研究和循证干预措施的设计。
当前挑战
该数据集所解决的领域挑战在于:家庭空气污染的健康影响评估在非洲长期面临数据稀疏、指标不统一及跨国可比性差的问题,此数据集通过整合WHO官方标准,为机器学习模型提供了清洁、结构化的DALYs估计值,支持分类与回归任务。构建过程中面临的挑战包括:原始API数据的异质性需统一清洗,不同性别与居住地类型的亚维度层级(如SEX、RURAL)增加了数据对齐难度,且置信区间边界值存在缺失,需在保持数据完整性的同时,设计稳健的过滤与聚合策略,以确保模型训练的可靠性和泛化能力。
常用场景
经典使用场景
在环境卫生与流行病学交叉研究领域,该数据集专用于量化撒哈拉以南非洲地区因室内空气污染所导致的伤残调整生命年(DALYs)损失。其经典使用场景是作为训练目标变量,结合国家、年份、性别等特征,构建回归模型以预测或分解疾病负担的时空分布格局。研究者常依据'SEX_BTSX'等子维度筛选两性合计数据,聚焦国家层面的时间序列分析,或利用置信区间字段评估估计值的不确定性,从而为健康影响评估提供稳健的量化基础。
解决学术问题
该数据集精准回应了全球疾病负担研究中长期存在的关键瓶颈:发展中国家室内空气污染健康影响的精准量化与区域可比性问题。它通过统一规范的WHO标准指标,为非洲47国在2010至2019年间提供了年龄标准化后的DALYs率,使学者得以跨越国家异质性,系统分析清洁能源干预措施对健康结果的实际效益。其存在填补了高分辨率、跨年面板数据的空白,推动了从描述性流行病学到因果推断方法(如断点回归)的范式跃迁,深刻影响了环境健康政策的循证决策范式。
实际应用
该数据集的现实应用价值辐射至多个卫生治理环节。公共卫生机构可将其嵌入监测预警系统,通过实时比对各年份DALYs变化趋势,识别疾病负担异常升高区域,为资源调配提供优先级依据。发展组织与非政府机构则能结合能源使用调查数据,评估炉灶改良、生物燃料替代等干预项目的健康成效,优化项目设计。此外,国际卫生合作中,该数据可作为基线参考,辅助国家间横向比较,推动清洁能源与可持续发展目标的协同推进。
数据集最近研究
最新研究方向
在非洲公共卫生与气候变化交叉领域,该数据集聚焦于室内空气污染导致的伤残调整生命年(DALYs)负担,为评估清洁能源干预措施的健康效益提供了关键量化基础。当前前沿研究方向包括利用机器学习回归模型挖掘国家间异质性模式、结合卫星遥感与地面监测数据构建时空预测框架,以及与全球疾病负担研究衔接,揭示撒哈拉以南非洲地区因传统生物燃料使用引发的慢性呼吸系统疾病与心血管疾病流行趋势。该数据集作为WHO全球卫生观察站标准化指标体系的产物,其价值在于支撑可持续发展目标(SDG 3.9)的精确监测,推动区域政策制定者将健康损失纳入能源转型决策模型,从而加速非洲大陆清洁烹饪技术推广的循证进程。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务