five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001450

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001450
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标年龄标准化中毒死亡率(每10万人)(SA_0000001450)在非洲国家的国别观察数据,时间跨度为2002-2004年。它是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖45个非洲国家,共180行数据,并按性别等维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, poisoning, per 100,000 (SA_0000001450) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 45 African nations with 180 total rows, and is stratified by dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)官方OData API,经重新整合后以Parquet格式统一封存,并纳入Electric Sheep Africa开源数据集合之中。所有数值型观测结果均直接采自API返回的浮点精度字段NumericValue,而非易失性的字符串形式。置信区间边界值(value_low与value_high)也在可用时被保留与收录。数据集覆盖了2002至2004年间45个非洲国家共180条国家级观测记录,仅筛选自WHO非洲区域(ParentLocationCode = 'AFR')的指标数据。此外,性别(SEX)等子维度经过明确的拆分处理,每一个国家-年份-维度的组合对应一条独立行记录,以支持分层的统计分析与机器学习建模。
特点
该数据集最显著的特点在于其一致化、机器学习就绪的数据架构。所有观测统一采用浮点精度数值作为主要建模目标,并附带高、低置信区间边界,助力包含不确定度估计的统计分析。数据字段设计详尽规整——包含ISO国家代码、WHO区域、观测年份、点估计值、置信区间、格式化展示字符串以及维度属性。子维度如性别类型的标识清晰可辨(如SEX_BTSX对应两性合计),可通过简单的筛选操作精确获得特定分层子集。数据集的覆盖范围精准聚焦于非洲区域,时间跨度为三年,总量适中,适合作为小样本或低资源环境下的基准数据源。
使用方法
该数据集可通过HuggingFace Datasets库一行代码完成加载,返回的默认分割包含全部180条记录,并能够直接转换为pandas DataFrame以进行后续处理。为获取两性合计且无次区域分层的数据分析基线,只需对dim1列中因变量后缀为_BTSX或缺失值的行进行过滤。针对特定国家的时间序列研究,则可以使用ISO3国家代码(如KEN代表肯尼亚)配合year字段排序实现。由于子维度已经拆分为独立行,研究人员可以自由根据dim1/dim2标签聚合不同层级的统计量,或直接利用NumericValue列进行回归与分类任务建模。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年左右整理发布,依托世界卫生组织全球卫生观察站(WHO GHO)的开放数据,聚焦非洲大陆45个国家在2002至2004年间因中毒导致的年龄标准化死亡率(每10万人)。作为首个面向机器学习、统一架构的非洲健康数据集系列的一部分,它填补了非洲大陆在精准流行病学建模中高质量结构化数据的空白。核心研究问题在于揭示中毒死亡在不同性别、国家及时间尺度上的分布规律,为公共卫生政策制定提供量化依据。数据集采用CC BY 4.0许可协议,鼓励学术界与政策机构广泛使用,其标准化模式(包含置信区间与分层维度)降低了跨国家比较的分析门槛,对非洲区域卫生监测、环境毒理评估及全球疾病负担研究具有重要推动作用。
当前挑战
构建该数据集面临的首要挑战在于原始数据的不完整性与异质性——尽管WHO GHO提供了结构化指标,但不同非洲国家的数据收集能力参差不齐,导致部分年份与国家存在缺失值,且置信区间的可用性不一致,影响模型训练的稳定性。此外,中毒死亡事件的统计易受医疗诊断水平、毒物暴露种类及登记系统完善度的影响,使得跨时空的死亡率比较需谨慎处理混杂变量。从建模角度看,数据集仅覆盖2002至2004年,时间跨度短且样本量较小(180条记录),限制了深度学习等数据密集型方法的直接应用。解决方案需依赖贝叶斯层级模型来融合稀疏信息,或结合外部环境毒物暴露数据以增强预测鲁棒性,同时构建缺失值插补策略以应对国家层面的报告滞后问题。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集最经典的应用场景是对中毒导致的年龄标准化死亡率进行跨国别与跨年度的描述性分析。研究者可借助其细粒度分层变量(如性别),精准刻画不同亚群的中毒死亡负担,并通过时间序列趋势揭示2002至2004年间非洲地区中毒致死风险的演变规律,识别高危人群与潜在干预窗口。
衍生相关工作
围绕该数据衍生的经典工作包括构建非洲中毒死亡率预测模型,如利用梯度提升机等机器学习算法联合社会经济指标(如GDP、城市化率)进行跨年外推;同时激发了多指标综合排名研究,将该中毒死亡率与心血管疾病、伤害等其他死因数据融合,绘制非洲区域死因谱的综合性聚类图谱,揭示最需优先干预的复合风险区。
数据集最近研究
最新研究方向
该数据集聚焦于非洲区域中毒所致年龄标准化死亡率的跨国时序分析,为评估非洲大陆公共卫生干预效果与中毒性疾病负担提供了关键数据基础。结合WHO全球卫生观测站(GHO)的官方统计,该数据可支持利用机器学习模型预测中毒死亡率趋势、识别高危人群与地域差异,并探讨社会经济因素与环境暴露对中毒致死率的影响。在气候变化与工业化加速的背景下,此类研究对于制定非洲国家精准预防策略、优化医疗资源配置具有深远意义,亦为全球中毒性疾病监测体系的完善贡献了区域视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作