electricsheepafrica/africa-who-under-five-mortality-rate-0000000007
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-under-five-mortality-rate-0000000007
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“5岁以下儿童死亡率(每1000名活产婴儿中5岁前死亡的概率)”在非洲国家的国家级观察数据,时间跨度为1932年至2023年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包含置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为16,590行,并按性别等子维度分层。
This dataset contains country-level observations for the WHO GHO indicator "Under-five mortality rate (probability of dying by age 5 per 1000 live births)" (`MDG_0000000007`) across African nations, spanning 1932–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 16,590 rows and is stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区五岁以下儿童死亡率这一关键健康指标,其指标代码为MDG_0000000007。原始数据经过系统化的重新打包与整理,以Parquet文件格式存储,并采用统一的数据模式,确保机器学习就绪。数据集中每条记录对应一个国家、年份及维度组合的观测值,其中核心数值字段value_numeric直接取自API中的浮点精度字段NumericValue,而非显示字符串。同时,数据集保留了置信区间上下限(value_low与value_high),为不确定性量化提供了可能。此外,数据集还包含了性别(SEX)等子维度信息,用户可通过dim1和dim2字段进行筛选或聚合,以获取特定分层的统计结果。
使用方法
用户可通过HuggingFace Datasets库便捷地加载该数据集,典型用法为执行`load_dataset("electricsheepafrica/africa-who-under-five-mortality-rate-0000000007")`,随后将训练集转换为Pandas DataFrame进行后续处理。为了聚焦于全国层面的整体死亡率,建议通过过滤条件`df.get("dim1", "").str.endswith("_BTSX") | df.get("dim1", pd.Series()).isna()`筛选出“两性合计”(Both-sexes)的观测值。对于特定国家的时间序列分析,可通过`df["country_iso3"] == "KEN"`等条件筛选并依年份排序。该数据集适用于分类与回归两类任务,是研究非洲儿童健康状况及评估卫生政策效果的优质数据资源。
背景与挑战
背景概述
五岁以下儿童死亡率是衡量国家儿童健康水平与可持续发展进程的核心指标,也是联合国千年发展目标(MDGs)和可持续发展目标(SDGs)重点监测的公共卫生参数。非洲地区作为全球儿童死亡负担最重的区域,其死亡率长期处于高位,但高质量、长时序、跨国家的结构化数据长期匮乏,制约了机器学习模型在健康政策预测与干预评估中的应用。在此背景下,Electric Sheep Africa研究团队于2023年从世界卫生组织全球卫生观察站(WHO GHO)的OData API中系统采集并整理了覆盖47个非洲国家、跨越1932年至2023年的五岁以下儿童死亡率数据,形成了本数据集。该数据集以统一架构的Parquet格式发布,包含点估计值与置信区间,并支持性别等维度分层,为非洲公共卫生领域的时序预测、区域比较及因果推断提供了重要的标准化数据基础,兼具科研开放性与机器学习即用性。
当前挑战
该数据集所解决的核心领域问题在于非洲五岁以下儿童死亡率的精准定量建模与预测,这一任务面临多重挑战。一方面,数据在时间维度上高度不均衡,早期年份(如1932年至1960年)观测稀疏,部分国家长达数十年的记录缺失,容易导致模型在欠采样区域产生系统性偏差;另一方面,指标本身受医疗可及性、冲突、营养不良等复杂非线性因素驱动,单纯基于历史死亡率时序进行外推难以捕捉结构性突变。在数据集构建过程中,挑战主要源自WHO GHO API的数据异构性:原始字段中同时包含浮点数NumericValue与字符串DisplayValue,需要严格消除格式化差异;不同国家上报数据的粒度与频率并不统一,且置信区间(value_low/value_high)在部分记录中缺失,必须设计清晰的缺失值处理与代理策略。此外,性别分层(dim1字段)与地区分层等子维度信息使得合并与聚合操作易产生冗余行,需通过细致的过滤规则定义全国级与分性别子集,以保证建模时数据语义的准确性。
常用场景
经典使用场景
非洲五岁以下儿童死亡率数据集(MDG_0000000007)源自世界卫生组织全球卫生观察站,涵盖1932至2023年期间47个非洲国家的观测数据,并包含性别等子维度信息。其最经典的用途在于为机器学习中的回归与分类任务提供高质量的结构化输入,研究者可借助该数据集构建预测模型,对非洲各国的儿童死亡风险进行估计,或依据时间序列分析其演变趋势。通过过滤如'SEX_BTSX'的维度字段,能够灵活提取全国层面或按性别分层的数据,从而满足多样化的建模需求。这一简洁而规范的schema设计,特别适合作为时序预测和跨国家比较分析的基准数据源。
解决学术问题
该数据集的核心学术贡献在于为公共卫生领域中儿童生存率相关研究提供了标准化、可复现的量化基础。它帮助解决了长期以来非洲地区健康指标数据散乱、格式不统一而导致的跨国家纵向分析困难,使研究者能够系统性地评估各国在降低五岁以下儿童死亡率方面的进展,并识别影响死亡率变化的潜在社会经济与环境因素。通过整合多年的点估计值与置信区间,该数据集支持统计建模中不确定性量化与趋势显著性检验,进而推动关于千年发展目标(MDGs)及其后可持续发展目标(SDGs)健康指标达成情况的实证评估,对揭示区域医疗资源分配不均和干预措施效果差异具有重要学术意义。
实际应用
在实际应用中,该数据集为国际卫生机构、非政府组织以及非洲各国卫生部门提供了关键决策支持。例如,通过分析不同国家随时间变化的儿童死亡率曲线,政策制定者能够识别高负担区域,并据此优化医疗援助和人道主义资源的优先投放。公共卫生项目负责人可结合该数据与免疫覆盖率、营养状况等其他指标构建多源评估体系,以衡量健康干预措施的长期实效。此外,该数据集也被集成至机器学习驱动的早期预警系统中,协助实时监测异常死亡率波动,提升对疫情或人道危机爆发前兆的感知能力,从而支持更及时、更具针对性的应急响应。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区五岁以下儿童死亡率这一关键公共卫生指标,涵盖1932至2023年间47个国家的详尽观测数据,为机器学习驱动的健康不平等研究提供了坚实底座。当前前沿方向包括利用此类高质量时间序列数据构建预测模型,以评估区域卫生干预成效、识别脆弱群体,并与可持续发展目标(SDGs)紧密挂钩,尤其在后疫情时代全球儿童健康回顾与非洲卫生系统韧性分析中扮演核心角色。此外,该数据与WHO全球卫生观察站等权威来源接轨,便于研究者开展跨区域跨国界比较,助力精准制定降低儿童死亡率的政策策略,其标准化格式与置信区间信息的包含更提升了模型训练的可靠性与可复现性。
以上内容由遇见数据集搜集并总结生成



