five

electricsheepafrica/africa-who-infant-mortality-rate-imr

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-infant-mortality-rate-imr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“婴儿死亡率(每1000例活产中的死亡数)”(`imr`)在非洲国家的国家层面观测数据,时间跨度为1993年至2019年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Infant mortality rate (deaths per 1000 live births)" (`imr`) across African nations, spanning 1993–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区1993至2019年间的婴儿死亡率指标(每千例活产中的死亡人数)。原始数据经由系统化的重新封装流程,被整合为统一架构的Parquet文件格式,并剔除显示字符串的干扰,仅保留浮点精度的数值字段作为核心指标。同时,数据集纳入了置信区间的上下界(value_low与value_high),以提升统计严谨性。在构建过程中,数据依据国家、年份以及多种人口健康分层维度(如性别、居住地类型、教育水平、财富分位数等)进行结构化排列,生成了涵盖41个非洲国家、共计5399条观测记录的完整表格。这种精细化的维度拆分方式,使得每条记录均对应国家-年份-特定亚组(如城乡、男女)的唯一组合,为后续的多层次分析提供了坚实基础。
使用方法
该数据集的使用极为便捷,可通过HuggingFace的datasets库直接加载。用户只需调用load_dataset('electricsheepafrica/africa-who-infant-mortality-rate-imr')即可获取完整的训练集,并支持一键转换为Pandas DataFrame进行后续操作。针对不同的研究需求,数据集提供了灵活的分层筛选方案:例如,通过过滤dim1字段以排除性别与地区亚组,可获取全国性数据;利用country_iso3列可快速提取特定国家(如肯尼亚)的时间序列。此外,若需分析亚组异质性,可依据dim1_type与dim1列的对应关系对数据进行分组或聚合。该数据集同时适用于分类与回归任务,用户可直接将value_numeric作为回归目标,或根据特定阈值将其离散化为分类标签,以服务于多样的学习范式。
背景与挑战
背景概述
婴幼儿死亡率作为衡量国家健康水平与医疗体系效能的核心指标,长期受到全球公共卫生领域的关注。世界卫生组织(WHO)通过其全球卫生观察站(GHO)长期系统性地收集各国婴幼儿死亡率数据,该数据集‘africa-who-infant-mortality-rate-imr’正是基于此官方渠道构建,由Electric Sheep Africa团队于2023年前后整合发布,覆盖1993至2019年间41个非洲国家的5,399条观测记录。该数据集的核心研究问题在于提供机器就绪的、结构统一的非洲婴幼儿死亡率时间序列数据,以支持区域健康不平等分析、预测建模以及政策评估。作为非洲数据统一化存储库的一部分,它在全球健康研究社区中具有显著影响力,为非洲公共卫生的量化研究奠定了数据基础。
当前挑战
该数据集所解决的领域问题挑战在于:非洲大陆普遍面临数据稀疏、统计口径不一、历史记录不全等数据生态困境,导致跨国比较与长期趋势分析极为困难。具体而言,婴幼儿死亡率这一指标受多种因素交叉影响,如年龄组、教育水平、居住地类型、财富分位数等,需要精细化分层建模,而传统数据集往往无法提供此类细粒度信息。在构建过程中,数据集面临的挑战包括:从WHO OData API中提取的原始数据存在多维度分类体系(如AGEGROUP与SEX的嵌套组合),需进行复杂的结构化清洗;部分观测值缺乏置信区间边界,需在保留数据完整性的同时进行合理缺失值标识;此外,确保国家代码、时间格式在不同数据源间的一致性也构成了整合阶段的重大挑战。
常用场景
经典使用场景
该数据集的核心应用在于对非洲地区婴儿死亡率进行多维度、长时序的回归与分类建模。研究者可基于国家、年份、性别、城乡、教育水平、财富五分位等分层变量,构建精细化预测模型,以揭示社会经济与人口学因素对婴儿健康结局的复杂影响。其结构化的列式设计(如包含置信区间的数值字段)使得点估计与不确定性量化任务均能流畅开展,是探索非洲公共卫生变迁轨迹的理想数据基石。
解决学术问题
该数据集有效填补了非洲区域婴儿死亡率高质量结构化数据的空白,解决了长期以来因数据稀疏、口径不一而难以开展跨国家、跨时期比较分析的困境。通过提供统一格式的WHO官方权威数据,它支撑了关于医疗资源分配、妇幼保健政策成效评估、贫困与不平等对儿童生存影响的统计推断研究,为验证全球健康干预措施在非洲的实际效能提供了严谨的实证基础。
实际应用
在实际应用层面,该数据集可服务于非洲各国卫生部门的决策支持系统,用于监测千年发展目标与可持续发展目标中关于儿童生存指标的完成进度。开发人员可将其整合进健康指标仪表板或预警平台,通过时序分析自动识别异常波动区域,辅助国际组织与非政府组织精准部署医疗援助资源。此外,教育水平与财富分层等子维度使政策制定者能够针对特定弱势群体设计差异化干预方案。
数据集最近研究
最新研究方向
基于非洲婴儿死亡率(IMR)数据集的跨维度机器学习建模与公共健康决策支持研究
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务