five

electricsheepafrica/africa-who-household-and-ambient-air-pollution-attributable-dalys-air62

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-household-and-ambient-air-pollution-attributable-dalys-air62
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了世界卫生组织全球健康观察站(WHO GHO)指标家庭和环境空气污染导致的残疾调整生命年(每10万人口,年龄标准化)(`AIR_62`)在非洲国家2010-2019年的国家层面观测数据。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自`NumericValue`字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括了置信区间边界(`value_low`,`value_high`)。数据集覆盖了47个非洲国家,总行数为8,930,并提供了子维度(如性别)的信息。

This dataset contains country-level observations for the WHO GHO indicator Household and ambient air pollution attributable DALYs (per 100 000 capita, age-standardized) (`AIR_62`) across African nations, spanning 2010–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 8,930 rows and includes sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区家庭与环境空气污染所致的伤残调整寿命年(DALYs)指标(代码AIR_62)。Electric Sheep Africa团队对原始数据进行了系统化重构与封装,采用Parquet格式存储,并统一了数据模式。所有数值均直接取自浮点精度的NumericValue字段,而非格式化显示字符串,同时保留了置信区间上下限(value_low与value_high)。数据集覆盖2010至2019年间47个非洲国家,总计8930条观测记录,按WHO AFRO区域进行过滤,并包含了按性别等维度分层的子项,每个国家-年份-维度的独特组合形成独立行。
使用方法
该数据集可通过HuggingFace的datasets库便捷加载,使用load_dataset函数即可直接获取Parquet格式的训练集。用户可将其转换为Pandas DataFrame进行后续分析,例如通过过滤dim1字段中以'_BTSX'结尾的条目获取全国总体水平的双性数据,或利用country_iso3列筛选特定国家(如KEN)的时间序列。对于存在分层维度的指标,研究者可灵活选择按性别、城乡等子组别进行分析,或跨层聚合以获取宏观趋势。数据集同时支持回归与分类任务,其数值型目标变量(value_numeric)与置信区间字段为不确定性量化提供了基础,适用于流行病学预测模型构建。
背景与挑战
背景概述
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队整理并发布于HuggingFace平台,聚焦于非洲地区因家庭和周围空气污染导致的伤残调整寿命年(DALYs)指标(代码AIR_62)。数据覆盖2010至2019年间47个非洲国家,包含近9000条观测记录,经年龄标准化处理并以每10万人口为单位呈现。作为非洲健康数据统一机器学习仓库的一部分,该数据集旨在弥合非洲大陆在环境健康领域系统化、可复用数据的缺失,为量化空气污染对公共卫生的长期负担提供标准化的数值基础,推动区域性的疾病负担评估与政策干预研究。
当前挑战
该数据集所解决的领域挑战在于,非洲地区长期缺乏高质量、细粒度且统一格式的室内外空气污染健康影响数据,限制了跨国比较与流行病学建模的可靠性。在构建过程中,面临多重难题:首先,需要从WHO的OData API中提取原始数据并处理不同维度的分层结构(如性别、居住区域),确保每一条观测记录的数值、置信区间与属性字段完整对齐;其次,数据来源覆盖多国多年度,需协调缺失值、不一致的编码及更新时间差异,最终整合为格式一致、机器可读的Parquet文件,以支持下游的表格分类与回归任务。
常用场景
经典使用场景
该数据集聚焦于非洲国家因家庭和周围空气污染导致的伤残调整生命年(DALYs)损失,按每10万人口年龄标准化计算。经典使用场景包括构建回归模型来预测不同国家、年份及性别分层下的健康负担,以及利用时间序列分析揭示空气污染对公共卫生影响的演变趋势。研究者可基于此数据探索社会经济、环境指标与健康结局之间的关联,为区域流行病学研究提供量化基础。
解决学术问题
数据集有效解决了非洲地区空气污染健康负担数据稀缺且格式不统一的问题,为环境流行病学和全球健康研究提供了标准化、机器可读的观测数据。它使学者能够量化室内外空气污染对非洲人口健康的归因风险,填补了该区域在DALYs指标上的长期数据空白。这一资源促进了跨国家、跨时间的比较研究,显著增强了我们对空气污染健康影响地理异质性的理解,为制定针对性干预策略提供了科学依据。
实际应用
在实际应用中,该数据集可支持公共卫生决策者评估不同空气污染控制政策的健康效益,例如通过对比历年数据监控干预措施的有效性。世界卫生组织和各国卫生部门可借此优先配置资源于污染严重地区,并计算减少污染所能避免的DALYs损失。此外,数据集便于融入机器学习模型,辅助开发预测预警系统,为非洲国家的环境健康管理提供数据驱动的工具。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区家庭与室外空气污染导致的健康负担量化研究,具体以伤残调整寿命年(DALYs)为指标,涵盖2010至2019年间47个非洲国家的纵向观测数据。随着全球对空气污染健康影响的关注日益增强,尤其是世界卫生组织持续更新空气质量指南的背景下,该数据集为评估非洲大陆因暴露于室内外污染物所致的疾病负担提供了关键基准。其前沿研究方向包括利用机器学习模型预测不同国家与性别的年龄标准化DALYs趋势,以及结合社会经济与环境变量剖析不平等性。作为WHO全球卫生观察站数据的标准化版本,该资源弥补了非洲地区高分辨率、机器学习兼容健康数据集的缺口,支持可复现的跨国家比较分析,为制定精准的公共卫生干预措施与环境政策提供了数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务