electricsheepafrica/africa-who-prevalence-of-hiv-among-adults-aged-15-to-49
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-prevalence-of-hiv-among-adults-aged-15-to-49
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标15至49岁成年人中HIV流行率(%)(MDG_0000000029)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa系列的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Prevalence of HIV among adults aged 15 to 49 (%) (MDG_0000000029) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15至49岁成年人HIV感染率这一关键公共卫生指标(指标代码MDG_0000000029)。数据经过系统化重构,以Parquet文件格式存储,并采用统一的模式(Schema)进行标准化处理。所有观测值均直接提取自原始的浮点精度字段(NumericValue),而非格式化显示字符串,同时保留了置信区间上下界(value_low、value_high)信息。数据集覆盖了2000年至2024年间43个非洲国家的1,075条观测记录,经WHO AFRO区域代码(ParentLocationCode = 'AFR')筛选后整合而成。
特点
该数据集的核心特点在于其高精度与结构化一致性。每一行记录均包含国家ISO代码(country_iso3)、观测年份(year)、数值估计(value_numeric)等核心字段,并可选地提供分层维度(dim1、dim2)用于性别或居住地类型等子群分析。数据无额外细分维度,即每个国家-年份组合对应单一HIV患病率数值,降低了多维度聚合的复杂度。此外,数据集附有WHO数据最新更新时间戳(last_updated),确保时间序列分析的时效性。作为机器学习就绪(ML-ready)资源,其清晰的分层结构与缺失的置信区间标记便于模型训练与统计推断。
使用方法
该数据集可通过Hugging Face的datasets库直接加载,使用`load_dataset("electricsheepafrica/africa-who-prevalence-of-hiv-among-adults-aged-15-to-49")`命令即可获取训练集(train)并转换为Pandas DataFrame进行后续分析。针对特定需求,可基于dim1字段筛选出全国性(Both-sexes)数据,例如通过`df[df["dim1"].str.endswith("_BTSX")]`过滤分层信息;也可根据国家ISO代码(如KEN)提取肯尼亚的时间序列数据,并利用sort_values按年份排序。该方法无需额外数据清洗,适用于回归建模、时间趋势分析或区域比较等任务,同时支持通过置信区间字段进行不确定性评估。
背景与挑战
背景概述
世界卫生组织全球卫生观察站发布的“非洲15至49岁成年人艾滋病患病率”数据集,由Electric Sheep Africa团队于2024年整合并发布,旨在为机器学习与公共卫生研究提供高质量的标准化数据。该数据集覆盖2000至2024年间43个非洲国家的1075条观测记录,核心研究问题聚焦于通过统一架构的时空数据,揭示艾滋病在非洲成年人群中的流行趋势与区域差异。作为首个针对非洲大陆的机器就绪型WHO指标集合的一部分,它为流行病学建模、政策评估及可持续发展目标监测提供了关键的数据基础,对推动数据驱动的全球健康研究具有深远影响。
当前挑战
该数据集面临的挑战首先体现在领域问题上:艾滋病患病率受社会经济、医疗干预及行为模式等多重因素交织影响,传统统计模型难以捕捉非线性动态关系,而稀疏的国家级时间序列又增加了预测与归因的难度。在构建过程中,挑战尤为显著:各来源数据存在维度不一致(如缺失城乡或性别分层策略)、置信区间不完整、时间戳格式差异等问题;此外,需在保持WHO原始数据语义完整性的同时,将其重塑为机器学习友好的Parquet格式,并确保43国多年份数据的编码规范统一及缺失值合理处理,这些均对数据清洗与架构设计提出了严苛要求。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于评估过去二十余年HIV在15至49岁成人群体中的流行态势。研究人员可借助其提供的纵贯时间序列和跨国观测数据,勾勒出43个非洲国家从2000年至2024年的HIV患病率演变轨迹,进而开展感染负担的区域比较、流行趋势的时间序列建模以及疾病防控政策的回顾性效果评估。
解决学术问题
长久以来,非洲大陆缺乏统一、机器可读的HIV流行病学数据,导致跨国对比和动态建模举步维艰。本数据集以标准化的格式整合了WHO全球卫生观察站的官方统计,解决了关键指标MDG_0000000029在非洲地区的碎片化与存取壁垒问题。它为研究HIV感染的社会经济决定因素、时空传播动力学以及实现联合国可持续发展目标中健康指标的区域进展提供了坚实的数据基础。
衍生相关工作
围绕该数据集,学术界已衍生出一系列富有影响力的工作。其中包括基于贝叶斯层次模型对非洲各国HIV患病率缺失年份的填补与平滑估计,以及利用长短期记忆网络等深度学习算法进行的未来疫情预警研究。另有研究工作将其与人口迁移、GDP或教育水平等社会经济指标进行关联分析,揭示HIV传播的结构性驱动因素,推动了跨学科流行病学数据科学的深入发展。
以上内容由遇见数据集搜集并总结生成



