electricsheepafrica/africa-who-maternal-mortality-ratio
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-maternal-mortality-ratio
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1985年至2023年期间的世界卫生组织全球健康观察站(WHO GHO)指标“孕产妇死亡率(每10万活产)”(MDG_0000000026)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO全球健康观察站OData API获取,并重新打包为具有一致架构的Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Maternal mortality ratio (per 100 000 live births)" (`MDG_0000000026`) across African nations, spanning 1985–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自WHO全球卫生观测站(GHO)的OData API,聚焦于非洲地区孕产妇死亡率这一核心指标(MDG_0000000026)。数据以Parquet格式重新封装,采用统一且一致的架构,直接提取API返回的NumericValue字段作为浮点数精度的核心观测值,而非使用显示字符串。同时,数据集保留了置信区间上下限(value_low、value_high),并整合了国家ISO代码、WHO区域代码、年份及维度信息,形成了结构化的表格数据。覆盖1985年至2023年间47个非洲国家的1833条观测记录,为机器学习任务提供了可直接使用的标准化数据源。
特点
该数据集具备三大显著特点。首先,它专门聚焦于非洲大陆,由Electric Sheep Africa项目统一整理,确保了区域数据的完整性与可比性。其次,数据质量经过精细处理,核心值来自数值型字段,避免了显示字符串带来的解析歧义,并完整保留了置信区间信息,为不确定性建模提供了可能。最后,数据集支持多种粒度分析,尽管该指标本身无子维度分层,但其架构兼容了维度字段(dim1、dim2),便于未来扩展或与其它分维度指标统一使用,提升了数据集的通用性与可扩展性。
使用方法
使用该数据集极为便捷,通过HuggingFace的datasets库即可一键加载:`ds = load_dataset("electricsheepafrica/africa-who-maternal-mortality-ratio")`,随后可转换为Pandas DataFrame进行深入分析。用户可根据维度字段(如dim1)过滤出全国层面的双侧观测值(`_BTSX`),或通过`country_iso3`字段按国家筛选时间序列数据(如`KEN`)。数据集的列设计包括核心指标、精度区间及元数据,既适用于回归任务以预测死亡率,也可用于分类任务,或作为时间序列分析的输入,灵活满足不同研究与应用场景的需求。
背景与挑战
背景概述
孕产妇死亡率是衡量一个国家卫生系统效能与妇女健康权益保障水平的核心指标,直接关联联合国可持续发展目标(SDG 3.1)的达成。由世界卫生组织全球卫生观察站(WHO GHO)维护的非洲孕产妇死亡率数据集(africa-who-maternal-mortality-ratio),在Electric Sheep Africa团队的重新整理下,于2023年发布至HuggingFace平台。该数据集聚焦撒哈拉以南非洲地区,跨越1985年至2023年近四十年的观测期,涵盖47个非洲国家的1833条记录,为区域健康不平等研究提供了关键支撑。其核心研究问题在于利用统一、机器可读的格式揭示非洲大陆孕产妇死亡率随时间与空间的变化规律,从而推动数据驱动的公共卫生决策与机器学习模型在低资源环境下的应用。该数据集凭借与WHO官方数据源的一致性、包含置信区间的完整字段,以及无子维度分层带来的纯净结构,成为全球健康计量学与非洲流行病学研究中不可多得的标准化富矿。
当前挑战
该数据集所应对的领域挑战在于孕产妇死亡率统计的非标准化与碎片化问题。许多非洲国家长期缺乏完备的生命登记系统,导致原始数据存在严重缺失、延迟发布以及与人口调查口径不一等障碍,使得跨国的长期趋势比较与预测建模步履维艰。在构建过程中,数据集面临的主要挑战来自对WHO OData API的大规模抽取与清洗:原始接口返回包含混合类型值与显示字符串,必须精准提取NumericValue字段作为核心建模目标,同时解析并保留置信区间边界(value_low, value_high),以避免模型忽略测量不确定性。此外,由于部分记录存在孤儿维度或空白聚合层级,团队需设计校验逻辑以区分‘同时涵盖男女的全国级’与‘分性别或城乡分层’的观测值,确保用户能通过维度筛选获得干净的全国级时间序列——这一过程在无子维度指标下看似简单,却需对数十个API端点的一致性进行严格审计。
常用场景
经典使用场景
在非洲公共卫生研究领域,孕产妇死亡率是衡量母婴健康服务可及性与质量的核心指标。该数据集提供了1985年至2023年间47个非洲国家经标准化处理的孕产妇死亡率(每10万活产)的翔实观测值,广泛用于构建时间序列预测模型,以评估各国在降低孕产妇死亡风险方面的中长期成效。同时,由于数据粒度精细至国家-年份级别,研究者可将其作为监督学习中的回归任务目标变量,探索社会经济、基础设施或政策干预对孕产妇健康结局的量化影响。此外,该数据集包含置信区间信息,为不确定性建模与稳健性分析提供了天然支持,是非洲区域健康指标宏观比较与趋势诊断的权威数据基石。
实际应用
在实际应用层面,该数据集直接赋能非洲各国卫生部门及国际组织,用于设计并评估妇幼健康促进项目的成效。通过追踪具体国家在数十年间孕产妇死亡率的变化轨迹,政策制定者可精准定位高风险时间点与区域,从而调配医疗资源或启动靶向干预措施。公共卫生从业者还能将其纳入决策支持系统,结合人口普查、免疫覆盖率或人均收入等外部数据,构建风险预警模型,识别孕产妇健康危机的早期信号。此外,非政府组织在撰写资助提案或年度影响力报告时,常以此类权威指标为佐证,量化其工作在降低可预防性孕产妇死亡方面的贡献,使数据驱动的循证决策在资源匮乏的环境中得以落地生根。
衍生相关工作
该数据集已衍生出多项具有开创性的研究工作。在流行病学领域,研究者将其融入非洲大陆的疾病负担综合评估框架,通过贝叶斯层次模型平滑稀疏观测值,生成了更高时空分辨率的孕产妇死亡率地图。在机器学习的跨域迁移任务中,该数据集常被作为多任务学习或领域自适应实验的标签源,与卫星影像、移动通讯数据等非传统变量结合,探索社会经济匮乏程度的替代预测信号。同时,基于该数据的时间序列特性,学术界催生了面向非洲健康数据的偏差校正与缺失值插补方法创新,例如利用国家间协方差结构进行矩阵补全。这些工作不仅深化了对非洲孕产妇健康动态演化机制的理解,也为资源匮乏地区的统计方法论革新提供了宝贵的试验场。
以上内容由遇见数据集搜集并总结生成



