five

electricsheepafrica/africa-who-infant-mortality-rate-0000000001

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-infant-mortality-rate-0000000001
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1932年至2023年期间的世界卫生组织全球健康观察指标婴儿死亡率(出生至1岁期间每1000名活产婴儿的死亡概率)(MDG_0000000001)的国家级观察数据。数据直接来源于世界卫生组织全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Infant mortality rate (probability of dying between birth and age 1 per 1000 live births) (MDG_0000000001) across African nations, spanning 1932–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,针对非洲地区47个国家的婴儿死亡率指标(每千名活产儿在出生至一岁期间的死亡概率)进行系统性采集与整合。原始数据经由OData API获取后,被重新封装为具有统一Schema的Parquet格式文件,确保数值精度与元数据完整性。构建过程中,所有数值字段均取自精确浮点型的NumericValue,而非显示字符串,并纳入了置信区间上下界(value_low, value_high)以增强统计可靠性。数据集覆盖1932年至2023年间的时间跨度,共计9263条观测记录,每条记录对应特定国家、年份及可能的性别或居住地类型等细分维度,形成结构化且可用于机器学习的表格数据集合。
特点
该数据集的核心特点在于其高度结构化与多维度分层设计。除基本的国家-年份-数值三元组外,还通过dim1与dim2字段提供性别(SEX_BTSX、SEX_FMLE、SEX_MLE)及居住地类型等子维度划分,允许用户根据研究需求灵活筛选或聚合数据。所有值均源自WHO官方权威渠道,并附带置信区间,便于进行统计推断与不确定性评估。数据集采用统一的Parquet列式存储格式,支持高效压缩与快速查询,且已针对机器学习任务进行预处理,可直接对接Hugging Face Datasets库,省去了繁琐的数据清洗步骤。此外,其时间跨度长达近百年,为纵向趋势分析与政策效果评估提供了坚实依据。
使用方法
使用该数据集时,可通过Hugging Face Datasets库的一行代码加载,返回的Dataset对象可直接转换为Pandas DataFrame进行后续分析。典型应用包括时间序列预测、跨国家比较以及因果推断等。用户可根据dim1字段过滤出特定性别或全性别(如以_BTSX结尾的条目)的数据,亦可按国家ISO3代码筛选单个国家的完整时序。对于需要聚合分析的情景,可跨维度进行统计汇总。数据集支持回归与分类双重任务,数值型value_numeric字段可作为目标变量,而国家、年份及维度字段则构成特征空间。建议在使用前利用value_low与value_high字段评估估计值的波动范围,并注意缺失值处理策略。
背景与挑战
背景概述
婴幼儿死亡率是衡量一个国家卫生健康水平与社会发展程度的核心指标之一,直接关联着联合国千年发展目标与可持续发展目标的实现进程。该数据集由世界卫生组织全球卫生观察站(WHO GHO)官方发布,经Electric Sheep Africa团队整理并托管于HuggingFace平台,旨在为非洲地区的健康数据分析与机器学习研究提供标准化、可复用的数据资源。数据集覆盖47个非洲国家,时间跨度从1932年至2023年,包含超过九千条观测记录,并提供了按性别分层的亚维度数据。其核心研究问题在于通过长期、多国别的婴幼儿死亡率统计,揭示非洲大陆在降低婴儿死亡方面的进展与差距,为流行病学建模、政策评估及预测分析提供可靠的数据基础。该数据集的出现填补了非洲区域健康数据在机器学习领域整合不足的空白,有望推动数据驱动下的公共健康决策与学术研究。
当前挑战
首先,该数据集所解决的领域根本挑战在于婴幼儿死亡率作为动态健康指标,其时空分布极不均衡,非洲地区长期面临数据稀疏、质量参差与统计口径不统一的问题,从而导致难以构建稳健的预测模型与政策模拟。其次,在构建过程中面临的具体挑战包括:原始数据来源自WHO GHO的OData API,需要处理多维度分层(如性别、城乡)带来的数据膨胀与一致性维护问题;部分年代与国家的观测值存在缺失或置信区间边界不全,需在保留原始结构的同时设计合理的缺失值处理策略;此外,不同国家间(如北非与撒哈拉以南非洲)的统计记录密度差异显著,需在数据集格式设计中兼顾细粒度与可聚合性,以支持横截面与纵向分析的双重需求。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集最经典的用途是构建婴儿死亡率的时序预测模型与回归分析。研究者可借助其横跨近百年的47国面板数据,探讨经济发展、医疗资源覆盖或气候变迁对婴幼儿存活率的影响。该数据集按性别与地区进行细致分层,为进行亚组比较和时空异质性分析提供了便利,已成为量化评估非洲大陆儿童健康变化趋势的核心数据资源。
解决学术问题
该数据集有效弥补了非洲地区长期健康指标标准化与机器可读性不足的学术缺憾。它解决了两个关键研究难题:一是如何将世界卫生组织分散的官方数据整合为统一、清洁的时间-空间-属性三维表格;二是为评估联合国千年发展目标中儿童存活率指标的进展提供了可复现的量化基础。该数据推动了欠发达地区健康不平等、政策干预效果评估及环境-健康关联等领域的实证研究。
衍生相关工作
该数据集衍生出一系列相关学术成果:首先,基于其构建的时序预测模型已成为联合国儿童基金会年度报告《非洲儿童健康展望》的参考依据;其次,多篇研究利用其分层维度分析了性别差异对婴儿存活率的影响,推动了针对性干预政策的制定;此外,该数据还催生了与气候变量、教育水平等外部数据集的交叉分析框架,成为评估环境因素与健康产出关联的基准面板之一。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务