electricsheepafrica/africa-who-number-of-under-five-deaths
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-under-five-deaths
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“五岁以下儿童死亡人数”(CM_01)在非洲国家的国家级观察数据,时间跨度为1955年至2023年。数据来源于WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of under-five deaths" (`CM_01`) across African nations, spanning 1955–2023. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
非洲地区五岁以下儿童死亡人数数据集(africa-who-number-of-under-five-deaths)源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,经由Electric Sheep Africa项目系统化整合与封装,形成了一套结构统一、面向机器学习的Parquet格式数据资源。该数据集的构建严格遵循WHO提供的原始指标定义,提取其`NumericValue`字段中的浮点型精确估计值,而非仅保留展示字符串。同时,在可用的情况下,数据集同时收录了置信区间的上下限(`value_low`与`value_high`),为统计分析提供了完整的概率范围信息。通过这一严谨的数据工程流程,原始分散的官方统计信息被转化为可直接用于建模与分析的高质量结构化数据。
使用方法
数据集的使用极为便捷,研究者可直接通过HuggingFace的`datasets`库调用`load_dataset`函数加载数据,并将其轻松转换为Pandas DataFrame进行后续分析。例如,通过筛选`dim1`字段末尾为`_BTSX`的记录或该字段为空的行,可获取仅包含“男女合计”的全国层面数据。针对单一国家的时间序列分析,则可通过过滤`country_iso3`列并排序年份实现。该数据集的标准化结构使得其能够无缝融入机器学习工作流,同时支持按维度分层建模、区域对比分析以及长期趋势挖掘等多样化研究任务。
背景与挑战
背景概述
该数据集源自世界卫生组织全球卫生观测站,由Electric Sheep Africa团队整理并发布于HuggingFace平台,聚焦非洲地区五岁以下儿童死亡人数这一关键健康指标。核心研究问题在于揭示非洲各国儿童生存状况的时空演变规律,为公共卫生决策提供量化依据。数据集覆盖1955年至2023年间47个非洲国家的15471条观测记录,并依据性别等维度进行分层,具备机器学习的可直接利用性。作为非洲健康数据统一存储库的重要组成,该数据集对推动全球健康不平等研究、儿童死亡率预测建模以及可持续发展目标监测具有显著学术与实践价值。
当前挑战
该数据集所解决的领域挑战在于,非洲五岁以下儿童死亡率长期居高不下,而高质量、标准化、机器可读的细粒度数据匮乏,严重制约了区域健康趋势分析、政策评估与预测模型的构建。构建过程中面临的挑战包括:WHO原始API数据结构复杂,需进行跨维度的数据清洗与格式统一;不同国家间数据报告质量与时间覆盖不齐,导致缺失值处理与置信区间整合困难;此外,性别分层等次维度的存在要求设计灵活的重采样策略,以支持多样化研究需求。
常用场景
经典使用场景
该数据集专注于非洲地区五岁以下儿童死亡人数的统计,涵盖47个非洲国家自1955年至2023年的年度观测数据。经典使用场景之一是基于该数据集开展时间序列预测与趋势分析,研究者可借助回归模型或深度学习框架,按国家或性别维度建模,揭示非洲儿童死亡率的历史变迁规律。此外,该数据集也广泛用于分类任务,例如将国家按高、中、低死亡率进行聚类或分级,以识别公共卫生风险区域。其结构化的表格形式与丰富的子维度(如性别分层)为多变量因果推断提供了坚实基础,成为非洲儿童健康大数据分析中的标杆性数据源。
解决学术问题
该数据集有效解决了非洲地区儿童死亡率长期缺乏标准化、高覆盖度统计数据的学术难题。过去,由于数据来源分散、格式不一,跨国比较与时间序列分析往往受限于数据质量与一致性。该数据集通过统一整合WHO全球卫生观测站的官方指标,提供包含置信区间的高精度数值,使研究者能够准确评估非洲各国在降低儿童死亡负担方面的进展。它推动了全球公共卫生领域中关于不平等性、医疗干预效果、母婴保健政策效应的定量研究,为可持续发展目标(SDG 3.2)中的儿童生存指标监测提供了关键数据基础。
实际应用
在实际应用中,该数据集广泛服务于非洲各国卫生部门、国际组织(如WHO、UNICEF)及非政府机构的政策评估与资源分配决策。通过对五岁以下儿童死亡人数进行时空分析,可以有针对性地部署疫苗接种计划、营养干预措施和医疗资源,提升非洲低资源地区的儿童生存率。同时,该数据集也为流行病学建模、人口健康智能预警系统以及医疗公平性研究提供了训练数据。在机器学习领域,它常被用于开发死亡率预测工具,帮助公共卫生管理者提前识别高危区域并采取预防行动。
数据集最近研究
最新研究方向
当前,非洲五岁以下儿童死亡数数据集在全球健康监测与机器学习交叉领域备受关注,尤其在联合国可持续发展目标(SDG 3.2)推动下,相关研究聚焦于利用该高时间跨度(1955–2023)和按性别、城乡等维度分层的数据,构建精准预测模型以识别高危地区及趋势拐点。这一方向紧密结合了世界卫生组织(WHO)的全球卫生观测站(GHO)数据开放倡议,与近年来非洲大陆健康数据基础设施薄弱却亟需循证决策的热点事件相呼应。通过为47个非洲国家提供机器学习就绪的Parquet格式数据,该数据集显著降低了数据预处理门槛,助力学者与政策制定者开展因果推断、时空分析及资源优化配置研究,其影响在于加速了非洲儿童生存率的科学提升路径探索,并为跨区域健康不平等量化评估提供了实证基石。
以上内容由遇见数据集搜集并总结生成



