five

electricsheepafrica/africa-who-estimated-number-of-pregnant-women-living-with-hiv

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-pregnant-women-living-with-hiv
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标孕妇感染HIV的估计数量(HIV_0000000020)在非洲国家的国家级观测数据,时间跨度为2010年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖42个非洲国家,共611行数据。

This dataset contains country-level observations for the WHO GHO indicator Estimated number of pregnant women living with HIV (HIV_0000000020) across African nations, spanning 2010–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 42 African nations with a total of 611 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口(OData API),聚焦于非洲地区孕妇感染艾滋病病毒估算人数这一关键公共卫生指标(代码HIV_0000000020)。原始数据以Parquet文件格式统一存储,并经过清晰的schema标准化处理,确保所有数值均采用浮点精度的NumericValue字段,同时保留置信区间上下界(value_low、value_high)以提供统计不确定性信息。数据覆盖了WHO非洲区域(AFR)内的42个国家,时间跨度为2010年至2024年,总计包含611条观测记录,每条记录对应单一国家与年份的组合,无额外的子维度分层,从而形成简洁的表格型结构。
使用方法
该数据集的使用极为便捷,支持通过HuggingFace的datasets库直接加载。用户只需调用load_dataset('electricsheepafrica/africa-who-estimated-number-of-pregnant-women-living-with-hiv')即可获取包含单一训练的Dict对象,并轻松转换为pandas DataFrame进行后续分析。对于需要过滤特定维度的场景,例如仅关注全国层面数据,可依据dim1字段中是否包含'_BTSX'(两性合计)标签进行筛选;提取特定国家的时间序列数据时,则可直接对country_iso3字段进行条件过滤并按year排序。这一设计充分考虑了流行病学建模与数据可视化的实际需求。
背景与挑战
背景概述
在非洲地区,HIV/AIDS对孕产妇健康构成了严峻挑战,妊娠合并HIV感染不仅增加母婴传播风险,还显著提高孕产妇死亡率。世界卫生组织(WHO)全球卫生观察站(GHO)自2010年起系统追踪这一指标。该数据集由Electric Sheep Africa团队于2024年从WHO GHO API统一获取并重新封装,涵盖42个非洲国家2010至2024年间孕妇HIV感染人数的估算值。其核心研究问题聚焦于量化非洲孕产妇群体的HIV疾病负担,为流行病学建模和卫生政策制定提供可靠数据支撑。作为首个面向机器学习的非洲健康指标整合数据集,它填补了该领域结构化、可复用的数据空白,对推动以数据驱动的非洲母婴健康研究具有里程碑意义。
当前挑战
该数据集所解决的领域问题在于,既往非洲孕妇HIV感染数据分散在各国报告和WHO独立页面中,格式各异,严重阻碍了跨国比较与时间序列分析。通过统一架构清洗整合为机器可读的Parquet格式,并附置信区间,使研究者能直接进行回归或分类分析。然而构建过程面临严峻挑战:首先,WHO原始数据存在大量缺失值与异常记录,需要设计鲁棒的处理策略;其次,不同国家间数据申报标准和更新频率不一致,造成时间维度上的不均衡;最后,将各国人口基数差异纳入模型时,单纯的计数估计值可能掩盖真实流行病学负担,需谨慎处理以释放数据价值。
常用场景
经典使用场景
非洲地区孕产妇HIV感染人数的估计与预测是流行病学与全球健康领域的经典研究课题。该数据集基于世界卫生组织全球卫生观察站的官方统计,提供了2010至2024年间42个非洲国家的孕产妇HIV感染者数量,覆盖十余年的时序观测。研究者和公共卫生专家常利用该数据集进行区域疾病负担的量化分析,通过回归模型或分类方法探索感染人数与年份、国家政策、医疗资源分布等协变量间的潜在关联,从而揭示疫情在母婴传播中的演进规律。
解决学术问题
该数据集致力于回应非洲艾滋病母婴传播研究中的核心学术难题:如何系统性地量化并填补孕产妇HIV感染人群在高时空分辨率下的数据空白。通过统一、可机读的格式整合多个国家的官方估计数值及其置信区间,数据集有效支撑了区域疫情趋势的时间序列分析、国家间分布差异的统计学比较,以及基于面板数据的生态学研究。它不仅为验证母婴传播预防干预效果提供了标准化基准,还推动了关于不平等性与健康决定因素的跨学科实证分析。
实际应用
在实际公共卫生决策中,该数据集被广泛用于资源分配规划与防控策略的制定,例如针对HIV高负担国家的母婴阻断服务部署。国际组织与国家卫生部门可基于该数据识别高风险区域,优化抗逆转录病毒药物的配送,并评估消除母婴传播目标的实现进度。此外,机器学习模型可输入该数据集的时序特征以预警疫情反弹,辅助精准医疗与政策性投资的地图绘制,从而在有限预算内最大程度降低新生儿感染率。
数据集最近研究
最新研究方向
在非洲公共卫生领域,该数据集聚焦于估算感染HIV的孕妇数量,为母婴传播阻断策略的优化提供了关键数据支撑。前沿研究方向集中于利用这些时间序列数据构建机器学习预测模型,以精准捕捉疫情演变趋势,并结合地理空间分析评估不同国家干预措施的实际效果。关联热点事件包括WHO加速消除艾滋病母婴传播的全球倡议,该数据集在刻画区域差异、识别高风险群体及验证防控目标达成度方面具有不可替代的学术价值与实践意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务