five

electricsheepafrica/africa-who-number-of-infant-deaths

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-infant-deaths
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在1951年至2023年期间的世界卫生组织全球健康观察指标婴儿死亡数量(CM_02)的国家级观察数据。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Number of infant deaths (CM_02) across African nations, spanning 1951–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲区域(WHO AFRO)47个国家在1951至2023年间婴儿死亡数量的年度观测值。原始数据经系统化抽取、清洗与整合,以Parquet格式存储,并采用统一的列式结构。核心数值取自高精度的`NumericValue`字段,而非显示字符串,同时保留了置信区间上下界。针对存在性别等分层维度的指标,每个国家、年份与维度组合均独立成行,确保数据颗粒度精细。整个流程由Electric Sheep Africa项目封装,旨在构建一个可直接用于机器学习建模的非洲健康数据仓库。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,执行`load_dataset`命令即可获得包含所有列的训练集。典型应用包括:利用`value_numeric`作为回归或分类目标变量;借助`country_iso3`与`year`构建国家维度的面板数据或时间序列。对于分层数据,建议通过过滤`dim1`字段(如选取以`_BTSX`结尾的值)以获取全性别或全国层面的观测。进一步地,可将数据与其他非洲健康指标数据集进行连接,开展多变量分析与流行病学研究。代码示例和引用信息在数据集主页提供,支持Python生态下的快速集成。
背景与挑战
背景概述
婴幼儿死亡率是衡量一个国家公共卫生体系效能与儿童生存权利保障程度的核心指标,被联合国可持续发展目标(SDGs)列为关键监测对象。针对非洲大陆长期存在的健康数据碎片化与统计口径不统一问题,世界卫生组织(WHO)全球卫生观测站(GHO)于2023年发布了“非洲婴儿死亡人数”数据集(指标代码CM_02),并由Electric Sheep Africa团队整理为机器学习就绪格式。该数据集覆盖47个非洲国家、1951年至2023年间的9025条观测记录,首次将官方统计指标以标准化、可复用的结构化形式开放,为区域健康不平等研究、流行病学建模及政策评估提供了高价值的基础数据资产。
当前挑战
在领域问题层面,该数据集旨在应对非洲婴儿死亡人数统计中数据稀疏性、时间序列不连续以及国家间报告标准差异带来的分析困境,例如部分国家长期缺失关键年份数据或存在性别分层信息空白。构建过程中,挑战主要源于WHO OData API原始数据的多维度嵌套结构(如按性别、居住地类型分层),需通过统一的Parquet架构消除歧义;同时,置信区间缺失值处理、不同维度下重复观测的聚合策略,以及跨47国数据的时间对齐,均对数据清洗与有效性验证提出了严格要求。
常用场景
经典使用场景
该数据集涵盖了1951至2023年间47个非洲国家的婴儿死亡人数指标,为分析非洲地区婴儿死亡率长期演变趋势提供了宝贵的时间序列数据。研究者常利用此数据集构建回归模型,探究社会经济、医疗卫生政策及环境因素对婴儿生存状况的影响。数据集包含性别分层信息(SEX_BTSX、SEX_FMLE、SEX_MLE),支持按性别进行亚组分析,从而揭示婴儿死亡风险中的性别差异。此外,其置信区间数据使得研究者能够对估计的不确定性进行量化,进一步提升建模的严谨性与可靠性。
解决学术问题
在公共卫生与流行病学领域,该数据集有效解决了非洲地区婴儿死亡长期监测数据难以获取的困境。通过提供统一、结构化、机器可读的Parquet格式数据,它使得研究者能够开展跨国家、跨时期的纵向比较研究,尤其是在资源匮乏的非洲地区。该数据集支持探究婴儿死亡率与医疗可及性、免疫覆盖率、营养状况等关键变量之间的复杂关联,为评估全球健康干预措施(如联合国千年发展目标中降低儿童死亡率目标)的成效提供了坚实数据基础,推动了相关因果推断研究的发展。
实际应用
在实际应用层面,该数据集被广泛用于非洲各国卫生部的决策支持系统,辅助制定优先干预策略,如疫苗接种计划优化、新生儿护理资源分配及母婴健康政策评估。国际组织如WHO、UNICEF及非营利机构利用该数据集进行区域健康指标监测与报告,识别死亡负担最重的地区以导向精准援助。另外,数据科学家与机器学习从业者将其作为回归与分类任务的基准数据集,开发预测模型以提前预警婴儿死亡高峰,从而驱动数据驱动的公共卫生应急响应机制。
数据集最近研究
最新研究方向
该数据集聚焦于非洲区域婴儿死亡人数的长时序(1951–2023年)统计与预测研究,涵盖47个国家、性别与居住地类型等多维度分层观测数据,为公共健康领域提供了高质量的结构化资料。结合当前全球卫生议程中降低新生儿死亡率的紧迫性,研究者可借助此数据集开发时序回归或分类模型,探索非洲婴儿死亡率与医疗资源、经济因素、环境变迁等变量的关联。该数据集的开放性与ML就绪特性,有助于推动非洲妇幼健康政策的循证决策与前沿AI驱动监测系统的构建。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务