electricsheepafrica/africa-who-reported-number-of-people-receiving-antiretroviral-therapy
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-reported-number-of-people-receiving-antiretroviral-therapy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标接受抗逆转录病毒治疗的人数报告(HIV_0000000009)在非洲国家的国家层面观测数据,时间跨度为2000年至2024年。数据直接来自WHO全球健康观察站的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Reported number of people receiving antiretroviral therapy" (`HIV_0000000009`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(GHO)的OData API,聚焦于非洲国家2000至2024年间接受抗逆转录病毒治疗人数的报告指标(代码HIV_0000000009)。数据经过系统化提取与清洗,全部采用浮点精度的`NumericValue`字段,并保留置信区间上下界。构建过程中,通过筛选WHO非洲区域(ParentLocationCode='AFR')的国家,最终整合为包含43国、1075条记录的Parquet文件,形成统一模式、便于机器学习的标准化数据集。
特点
数据集的核心特点在于其精确性与可分析性。每条记录均包含国家ISO代码、年份、数值估计及置信区间,支持对治疗覆盖趋势的严谨统计推断。数据无子维度分层(每个国家-年份组合仅对应单一值),简化了时间序列与跨国家比较的复杂度。此外,该数据集遵循CC BY 4.0许可,由Electric Sheep Africa项目重新封装,确保原始数据来源可靠且开放可复现。
使用方法
通过HuggingFace的`datasets`库可便捷加载该数据集,调用`load_dataset`函数后,数据以Pandas DataFrame格式呈现。用户可通过过滤`dim1`字段(如筛选性别不分层`_BTSX`或缺失值)获取国家层面数据,并利用`country_iso3`与`year`列进行特定国家的时间序列分析。典型应用包括基于数值列`value_numeric`的回归建模或分类任务,数据集的标准化架构使其易于集成至机器学习流水线中。
背景与挑战
背景概述
在全球公共卫生领域,抗逆转录病毒疗法(ART)的覆盖规模是衡量艾滋病防控成效的核心指标。世界卫生组织(WHO)依据《全球卫生观察站》(GHO)框架,持续追踪各国ART治疗人数,旨在为政策制定与资源分配提供科学依据。该数据集由Electric Sheep Africa于2024年整理发布,收录了2000至2024年间43个非洲国家的官方报告数据,共计1075条观测记录。其核心研究问题聚焦于非洲大陆艾滋病治疗可及性的时空演变,通过提供统一格式、可直接用于机器学习的Parquet文件,显著降低了跨国家时间序列分析的数据门槛。作为WHO开放数据在区域层面的深度应用,该数据集为流行病学建模、卫生系统绩效评估及国际发展目标监测提供了关键基准,尤其在非洲ART覆盖率仍存在显著差异的背景下,其学术与政策影响力持续攀升。
当前挑战
该数据集所解决的领域问题在于,尽管全球艾滋病治疗取得了显著进展,但非洲各国ART覆盖率的估算常因报告口径不一、数据缺失或时空碎片化而失真,导致干预效果评估与资源错配风险加剧。构建过程中,团队面对多重挑战:首先,WHO原始API返回的数值包含冗余展示字段与数值字段,需严格辨析并提取浮点精度值,以避免解析误差;其次,指标可能存在按性别、年龄或居住地域分层(如“SEX_BTSX”代表两性合计),但部分行缺乏维度标识,需巧设过滤逻辑保留完整时间序列;再者,43国跨度25年的数据中,置信区间字段(value_low、value_high)常有空缺,如何在保留统计可靠性的同时管理缺失值,成为维持数据集科学严谨性的关键难点。
常用场景
经典使用场景
该数据集记录了非洲各国在2000年至2024年间接受抗病毒治疗(ART)的人数,来源于世界卫生组织全球卫生观察站。作为一项关键的HIV/AIDS监测指标,它常被用于分析抗逆转录病毒疗法的覆盖趋势与区域差异。研究者通常通过时间序列分析,描绘非洲大陆在扩大治疗可及性方面的进展,或利用该数据集进行跨国比较,评估不同卫生系统在HIV治疗普及中的效能。其结构化、机器可读的格式使其特别适合作为监督学习任务中的回归目标,用于预测未来治疗人数或填补历史数据空缺。
衍生相关工作
该数据集衍生了一系列具有影响力的相关工作。在量化分析层面,研究者基于其开发了非洲HIV治疗覆盖率的贝叶斯时空模型,通过整合置信区间数据捕捉不确定性,生成了更精确的次国家级估计。在数据集构建领域,它被纳入如“Electric Sheep Africa”等致力于非洲数据标准化的整合项目,推动了跨来源卫生数据的统一架构设计。此外,该数据集常与WHO的其他HIV指标(如新发感染数、艾滋病死亡率)联动,形成多变量面板数据,用于构建HIV治疗效果的因果推断框架,为“治疗即预防”策略的有效性提供了实证支持。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区接受抗逆转录病毒疗法(ART)人数的时空动态监测,为HIV/AIDS流行病学建模、公共卫生政策评估及机器学习驱动的健康干预提供关键基础。近年来,伴随全球“90-90-90”目标向“95-95-95”迈进,非洲作为HIV高负担区域,利用该数据集可量化治疗覆盖率的区域差异与时间趋势,结合气象、迁移等协变量预测疫情拐点。其标准化Schema与置信区间字段支持不确定性感知的回归与分类任务,助力识别治疗可及性短板,推动精准健康资源配置,在实现联合国可持续发展目标(SDG 3.3)中具有不可替代的实证意义。
以上内容由遇见数据集搜集并总结生成



