electricsheepafrica/africa-who-estimated-number-of-people-living-with-hiv
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-people-living-with-hiv
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2000年至2024年间WHO GHO指标Estimated number of people (all ages) living with HIV的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Estimated number of people (all ages) living with HIV" (`HIV_0000000001`) across African nations, spanning 2000–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦非洲地区HIV感染者(全年龄)估计人数这一关键健康指标。数据经过结构化抽取与清洗,以Parquet文件格式重新打包,并统一纳入Electric Sheep Africa的机器学习就绪仓库。其构建过程保留了原始API中的`NumericValue`浮点精度字段作为主要数值来源,同时整合了置信区间上下界、国家ISO代码、观测年份及潜在的分层维度字段,形成了覆盖43个非洲国家、横跨2000年至2024年共计1075条观测记录的齐整表格数据。
特点
该数据集的核心特质在于其纯净的时间序列结构与区域聚焦特性。作为一组不含子维度的单值指标,每个国家-年份组合仅产生一行记录,极大降低了数据处理的复杂度,使其天然适用于回归或分类任务。数据附带了完整的置信区间信息,为不确定性量化提供了便利。此外,其统一的Schema设计与Parquet格式的存储,确保了跨数据集的可互操作性和高效的数据加载能力,尤其适合非洲地区健康指标的大规模分析与建模场景。
使用方法
借助HuggingFace Datasets库,用户可通过`load_dataset`函数一键加载数据并转换为Pandas DataFrame进行探索分析。当需要分析全国层面且不区分性别的趋势时,可筛选`dim1`字段以限定为`SEX_BTSX`取值或缺失值。针对单国别的时间序列研究,则可通过`country_iso3`字段进行过滤并按年份排序。该数据集还支持通过`indicator_code`字段与其他WHO GHO指标数据进行横向联合,扩展出多元化的流行病学分析框架。
背景与挑战
背景概述
在全球公共卫生领域,艾滋病病毒(HIV)感染者的准确估算对于资源配置、政策制定与流行病学监测至关重要。世界卫生组织(WHO)全球卫生观察站(GHO)长期追踪这一指标,而非洲作为受HIV影响最为严重的区域,其数据的系统化与机器可读性尤为关键。在此背景下,Electric Sheep Africa团队于2024年整合了WHO GHO官方OData API中的非洲国家数据,构建了该数据集,涵盖2000至2024年间43个非洲国家、共计1075条观测记录。数据集以标准化的Parquet格式发布,并采用CC BY 4.0许可协议,旨在为机器学习与时空流行病学分析提供高质量、统一结构的HIV感染人数指标数据,有力推动了非洲地区健康数据科学的研究进程。
当前挑战
该数据集主要解决的领域问题是非洲地区HIV感染者数量估算的标准化与可计算化,核心挑战在于:其一,原始WHO数据存在分层维度(如性别、城乡)与置信区间缺失问题,需要在保留统计可靠性的前提下进行归一并提供明确的筛选策略;其二,不同国家的数据上报频率与标准不一,2000至2024年间的长时间跨度带来了部分年份数据稀疏性与可比性不足的难题;其三,在数据集构建过程中,需处理OData API的异构数据格式转换、缺失值标记以及多表字段对齐等工程挑战,同时维护与WHO官方数据源的同步更新机制,确保数据时效性与一致性。
常用场景
经典使用场景
非洲地区是全球艾滋病负担最沉重的区域,该数据集汇聚了世界卫生组织全球卫生观察站关于非洲各国全年龄段HIV感染者估计人数的权威数据,覆盖2000至2024年间的43个非洲国家,共计1075条观测记录。其最经典的用途在于为时空维度的HIV疫情分析提供结构化、机器可读的数值型面板数据,研究者可基于国家与年份双维度构建纵向队列,借此剖析感染人数的演变轨迹、区域差异及潜在驱动因素,适用于流行病学监测与预测建模。
实际应用
在公共卫生决策与资源分配的实务场景中,该数据集扮演着数据基座的角色。国际组织与非政府机构可借助其时间序列数据追踪特定国家或区域的感染趋势,从而制定差异化的防治策略与资金投放计划。例如,基于十年以上的估计数值可以识别疫情加速恶化的热点区域,指导抗逆转录病毒药物的储备调度。国家卫生部门亦能结合本地财政与人口数据,开展成本效益模拟与远期目标达成度监测,将数据洞察转化为可执行的公共卫生行动。
衍生相关工作
围绕该数据集,学界已衍生出一系列经典工作方向。一是基于自回归滑动平均或状态空间模型的中短期感染人数预测研究,用以预警资源短缺风险。二是利用线性混合效应模型或地理加权回归,将本数据集的经济、教育等辅助协变量融合,量化社会决定因素对HIV流行的影响程度。三是置信区间信息的引入催生了对估计不确定性的贝叶斯建模工作,使得合成流行病学推断更加严谨。此外,该数据作为开源基准,被用于对比不同机器学习算法在稀疏面板数据上的插值与预测性能,促进了计算流行病学方法的发展。
以上内容由遇见数据集搜集并总结生成



