five

electricsheepafrica/africa-who-number-of-deaths-among-children-5-to-14-years-of-age

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-deaths-among-children-5-to-14-years-of-age
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标5至14岁儿童死亡人数(CHILDDEATH5TO14)在非洲国家的国家级观测数据,时间跨度为1990年至2023年。该数据集是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of deaths among children 5 to 14 years of age (CHILDDEATH5TO14) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API,聚焦于非洲地区5至14岁儿童死亡人数的国家层面观测数据,时间跨度覆盖1990至2023年。数据以Parquet格式统一封装,遵循一致的列式结构,所有数值均取自高精度浮点字段“NumericValue”,而非格式化显示字符串。在可能的情况下,数据集还包含了置信区间的上下界,以增强统计严谨性。该集合隶属于Electric Sheep Africa项目,旨在为非洲数据提供一个统一且易于机器学习应用的资源库。
特点
数据集的一个显著特点是其多维度的结构化设计,除了核心的年份与国家信息外,还引入了性别(SEX)等分维度变量,使得每个国家与年份组合下可能产生多条记录,以表征不同亚群(如男性、女性或总计)的死亡人数。这为研究者提供了灵活的聚合或筛选能力,例如可按需分析全国总计数据或特定性别群体的趋势。此外,数据集涵盖了47个非洲国家,样本总量接近4800条,时间序列完整,为长期纵向分析与区域比较提供了坚实的数据基础。
使用方法
用户可通过HuggingFace的datasets库便捷地加载该数据集,一行代码即可将其转化为Pandas DataFrame进行后续分析。在使用时,若希望获取国家层面的总计数据,建议对“dim1”字段进行过滤,筛选出以“_BTSX”结尾或该字段为空的行,以排除性别细分数据。对于研究单一国家的时间序列,可按ISO3编码筛选后按年份排序。该数据集既适用于表格分类任务,也适用于回归预测,能够为公共卫生领域的模型训练与健康指标的时间序列预测提供直接支持。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO),聚焦非洲47个国家1990至2023年间5至14岁儿童死亡人数的国家层面观测数据。作为Electric Sheep Africa系列的一部分,该数据集旨在为非洲健康研究提供统一、机器学习友好的数据资源,核心研究问题涉及儿童中期死亡率的时间趋势、性别差异及地理分布。该数据集对全球健康研究具有重要影响力,尤其在非洲儿童死亡率监测、流行病学研究以及可持续发展目标(SDG)中儿童生存指标的评估方面,为数据驱动的政策制定和干预措施提供了可靠依据。
当前挑战
该数据集所解决的领域问题在于,非洲地区5至14岁儿童死亡率数据常受限于数据碎片化、缺失及标准不一,难以支持精细化的时空分析与机器学习建模。构建过程中面临的挑战包括:从WHO GHO OData API抽取与清洗47个国家跨越34年的庞杂数据,确保浮点精度与一致性;处理性别、居住地区等分层维度导致的复杂数据形态,需要设计统一模式以保留置信区间等关键统计信息;此外,整合不同更新周期与数据质量来源的观测值,亦对数据校验与隐私合规提出严格要求。
常用场景
经典使用场景
该数据集记录了1990年至2023年间非洲47个国家5至14岁儿童死亡人数的国家层面观测数据,源自世界卫生组织全球卫生观察站。其经典使用场景涵盖时间序列分析与横截面比较研究。研究者可借助数据集的年份与国别字段,追踪特定国家或整个非洲区域儿童死亡率的长期演变趋势,揭示公共卫生干预措施的效果。同时,通过按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行分层筛选,能够深入剖析不同性别儿童死亡风险的差异,为制定精准的健康政策提供数据支撑。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门及国际组织(如WHO、UNICEF)提供了可操作的决策依据。公共卫生官员可利用其按国家、年份与性别细化的死亡数字,评估现有儿童健康项目的覆盖效果,识别高死亡风险的热点区域与脆弱群体。在资源分配与规划中,数据可指导有限医疗资源的定向投放,例如针对特定性别的疾病预防或学校健康筛查。此外,机器学习从业者可将该数据集整合到预测模型中,结合气候、营养或疫苗覆盖率等外部指标,构建早期预警系统,以提前识别潜在的健康危机。
衍生相关工作
基于此数据集,学术社区已衍生出多项具有影响力的研究工作。其一,研究者常将其与WHO GHO系列中其他指标(如营养不良率、疫苗接种覆盖率、疟疾发病率)进行关联分析,构建多变量回归或因果森林模型,揭示儿童死亡背后的复杂决定因素。其二,时间序列预测成为热点方向,利用LSTM或Prophet等模型对死亡人数进行短期推演,为年度卫生预算的制定提供参考。其三,近期工作开始探索空间统计学方法,结合地理坐标与区域特征,绘制非洲儿童死亡的热力图,识别跨国境的死亡集群,从而推动跨境卫生合作机制的完善。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务