five

electricsheepafrica/africa-who-number-of-pregnant-women-living-with-hiv-who-received

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-pregnant-women-living-with-hiv-who-received
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标携带HIV的孕妇接受抗逆转录病毒治疗以防止母婴传播的数量(HIV_0000000016)在非洲国家的国家级观察数据,时间跨度为2010年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of pregnant women living with HIV who received antiretrovirals for preventing mother-to-child transmission (HIV_0000000016) across African nations, spanning 2010–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区孕妇感染HIV后接受抗逆转录病毒治疗以预防母婴传播的数量指标(代码HIV_0000000016)。数据以Parquet文件格式重新封装,统一采用浮点精度的数值字段(NumericValue)作为核心指标,并附有置信区间上下限(value_low, value_high)。覆盖2010至2024年间42个非洲国家的611条观察记录,所有条目均按国家、年份进行组织,不包含子维度分层。
特点
数据集具有高度结构化和机器学习就绪的特性,其一致的模式设计便于跨国家和年份的纵向分析。核心特点在于提供单一数值指标(value_numeric)作为主要预测目标,同时保留显示字符串(value_display)和置信区间,增强了数据的可解释性和统计严谨性。此外,数据仅涵盖WHO AFRO区域,确保了地理聚焦的连贯性,且无额外子维度,降低了分析复杂度。
使用方法
使用者可通过HuggingFace的datasets库直接加载数据集,例如使用load_dataset函数获取训练集并转换为Pandas DataFrame。由于数据无子维度,可直接按国家或年份进行过滤,如通过country_iso3列筛选特定国家的时间序列,或利用dim1列过滤性别特定数据(如both-sexes级别)。推荐将value_numeric作为主要回归或分类任务的目标变量,并利用value_low和value_high评估预测不确定性。
背景与挑战
背景概述
在撒哈拉以南非洲,艾滋病病毒(HIV)母婴传播是导致儿童感染的主要原因,联合国艾滋病规划署和世界卫生组织(WHO)长期致力于推动预防母婴传播(PMTCT)服务。在此背景下,世界卫生组织全球卫生观察站(WHO GHO)于近年持续收集并公开了各成员国孕产妇接受抗逆转录病毒治疗的数据。该数据集由Electric Sheep Africa团队整理并托管于HuggingFace平台,核心指标为“HIV_0000000016”,涵盖2010至2024年间42个非洲国家的年度观测值,共计611条记录。作为非洲健康数据统一机器学习仓库的重要组成部分,该数据集为评估PMTCT覆盖率、区域医疗资源分配以及传染病建模提供了关键的结构化证据,显著推动了妇幼健康领域的定量研究与政策制定。
当前挑战
该数据集所解决的领域挑战在于,PMTCT效果评估长期受限于不完整或碎片化的国家报告,缺乏可供比较和建模的统一量化指标。具体而言,如何从WHO庞杂的API中提取并清洗出非洲区域的高质量观测值,并将原始字符串格式的数值转化为可操作的浮点型变量,是构建过程中首要克服的技术难题。其次,原始数据存在置信区间缺失、不同国家年份覆盖不均以及可能的测量标准差异,这要求在集成时审慎处理缺失值与异质性,以确保下游回归或分类模型既能捕获年度趋势,又能避免因数据稀疏导致的偏差。此外,子维度(如性别或城乡分层)的过滤策略也需要精心设计,以兼顾全局分析与特定群体研究的需求。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于分析妊娠合并HIV感染女性接受抗逆转录病毒药物以阻断母婴传播的趋势与区域差异。基于2010至2024年间覆盖42个非洲国家的国家层面观测数据,研究者可构建时间序列模型或面板数据回归,评估不同国家在消除HIV母婴传播目标上的进展,并识别关键干预节点。数据集提供的点估计值及置信区间,为贝叶斯统计推断与不确定性量化提供了可靠基础。
实际应用
在实际公共卫生决策中,该数据集被各国卫生部及国际组织(如UNAIDS、WHO AFRO)用于监测和优化预防母婴传播项目。公共卫生官员可基于各国历年数据,评估药物采购、培训与分发策略的成效,并识别服务覆盖率较低的次国家区域,从而精准调配资源。此外,机器学习模型可借助这些数据预测未来抗逆转录病毒治疗需求,辅助规划供应链与基础设施投入,提升干预措施的可持续性和公平性。
衍生相关工作
该数据集衍生出多项经典工作,包括基于稀疏时间序列的非洲HIV传播动力学生成模型、利用置信区间开展贝叶斯分层回归的母婴健康优先级排序研究,以及整合多源WHO GHO指标构建综合脆弱性指数的跨国分析。Electric Sheep Africa团队将其纳入统一框架后,后续学者开发了针对小样本国家区域的迁移学习算法,扩展了低资源环境下母婴传播预防模型的泛化能力,推动了数据驱动型全球健康研究的方法学进展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务