electricsheepafrica/africa-who-deaths-per-1-000-live-births
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-deaths-per-1-000-live-births
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2017年间世界卫生组织全球健康观察指标每1000名活产婴儿死亡数(MORT_200)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并重新打包为具有一致架构的Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了47个非洲国家,总行数为35,532行。
This dataset contains country-level observations for the WHO GHO indicator Deaths per 1 000 live births (MORT_200) across African nations, spanning 2000–2017. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 35,532 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦于非洲大陆47个国家在2000至2017年间“每千活产婴儿死亡数”(指标代码MORT_200)的国家级观测值。数据经由统一的Parquet格式重新打包,所有数值均采纳浮点精度的NumericValue字段,并附带了置信区间上下限(value_low与value_high)。在构建过程中,针对按性别或年龄组等分层的指标,每个国家、年份与维度的独特组合均生成了独立的数据行,可通过dim1与dim2字段进行筛选或聚合,从而保证了数据结构的完备性与灵活性。
特点
该数据集的核心特点在于其聚焦于非洲区域,覆盖了47个国家的长期时间序列,共计35,532条记录,为区域健康流行病学研究提供了丰富的数据基础。数据集不仅包含了点估计值,还提供了置信区间,增强了统计推断的可靠性。此外,它支持多维分层分析,允许研究者按性别、年龄组(如0-27天、1-59个月、0-4岁)及居住地类型等子维度进行精细的数据切片,以便深入挖掘不同人群间的死亡风险差异。数据遵循CC BY 4.0许可协议,经由Electric Sheep Africa项目整合,具有高度的机器学习和跨学科研究适用性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,调用`load_dataset("electricsheepafrica/africa-who-deaths-per-1-000-live-births")`即可获取训练集,并转换为pandas DataFrame进行后续分析。为聚焦于特定子群体,例如仅考虑全国层面的两性数据,可借助dim1字段筛选以"_BTSX"结尾的条目或排除该字段为空的行。对于时序分析,可按国家ISO3代码(如KEN表示肯尼亚)筛选后按年份排序。此数据集可直接用于分类或回归任务的建模,通过value_numeric作为目标变量,辅以地理与时间特征,探索非洲区域婴儿死亡率的驱动因素。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队整理,基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据,聚焦于非洲地区每千例活产婴儿的死亡数(MORT_200指标),时间跨度涵盖2000年至2017年。数据集整合了47个非洲国家的35,532条观测记录,并包含置信区间及多个维度(如年龄组、性别、居住地类型),旨在为非洲儿童生存状况的量化分析与机器学习建模提供标准化、高质量的数据基础。作为非洲区域健康数据统一集合的一部分,该数据集填补了该地区细粒度健康指标的可用性空白,推动基于证据的公共卫生决策与跨时空比较研究。
当前挑战
该数据集面临的挑战首要来自领域问题:非洲地区儿童死亡率受多种社会经济、环境及医疗资源因素交织影响,模型需处理高维度、高噪声及区域异质性,以从有限指标中提取稳健的预测信号。构建过程中的难点包括:原始WHO数据存在分层结构(如按性别、年龄、城乡细分),需谨慎处理聚合与标准化以避免信息损失或引入偏差;部分年份和国家存在数据缺失及置信区间不完全记录,需设计合理的插补策略;此外,来自不同数据源的时间戳格式与元数据一致性维护亦对自动化流水线构成挑战。
常用场景
经典使用场景
在非洲公共卫生研究领域,婴儿与五岁以下儿童死亡率是衡量区域健康水平的核心指标之一。该数据集汇集了世界卫生组织全球卫生观察站关于非洲国家每千名活产婴儿死亡人数的官方统计信息,覆盖2000年至2017年间47个非洲国家的观测数据,并提供了按年龄组、性别和城乡区域等维度细分的分层数据。研究者可利用此数据构建时间序列模型,分析死亡率随时间的演变趋势,或运用回归分析探究社会经济因素、医疗资源配置与死亡率之间的关联。数据集中包含的点估计值与置信区间,为进行严谨的统计推断和不确定性量化奠定了坚实基础。
解决学术问题
该数据集核心解决了非洲地区儿童死亡率长期面临的跨国产出数据碎片化与标准不统一的问题。通过整合世界卫生组织官方发布的标准化指标,它为学术研究提供了一个具备人群分层(性别、年龄、城乡)和时间纵深的完整分析框架。研究者得以系统评估非洲各国的卫生干预成效,量化感染性疾病控制、妇幼保健政策等对降低死亡率的具体贡献。该数据集的公开可用性极大地推动了全球健康不平等问题的量化研究,助力揭示非洲内部不同国家及亚群体间健康结果的巨大鸿沟,从而为联合国可持续发展目标中的儿童健康相关议题提供了关键的数据支撑与实证基础。
衍生相关工作
基于该数据集,衍生了一系列具有影响力的研究工作。一方面,诸多学者将其与教育水平、疫苗接种覆盖率、饮用水安全等其他社会经济及健康指标数据集相结合,构建多维度回归模型,深入剖析儿童死亡率的驱动因素及因果路径,显著深化了发展经济学与人口健康学的交叉研究。另一方面,该数据集催生了专门针对非洲地区的时空建模工作,例如利用其时间序列特性开发长短期记忆网络或贝叶斯层级模型,用以预测未观测年份的死亡率数值并量化预测不确定性。此外,它也成为验证新型统计方法在稀疏数据与不平衡面板数据场景下性能的经典基准,推动了相关方法论的进步。
以上内容由遇见数据集搜集并总结生成



