electricsheepafrica/africa-who-estimated-antiretroviral-therapy-coverage-among-people
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-antiretroviral-therapy-coverage-among-people
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家艾滋病患者接受抗逆转录病毒治疗覆盖率(%)的估计数据。数据集涵盖了2000年至2024年期间43个非洲国家的1075条记录。数据直接从WHO GHO OData API获取,并以Parquet格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Estimated antiretroviral therapy coverage among people living with HIV (%)" (`HIV_ARTCOVERAGE`) across African nations, spanning 2000–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口(OData API),聚焦于非洲地区人类免疫缺陷病毒(HIV)感染者中接受抗逆转录病毒治疗(ART)的估计覆盖率(%)。数据采集范围覆盖2000年至2024年间43个非洲国家,共计1075条观测记录,仅纳入WHO非洲区域(AFRO)的成员国家。原始数据经规范化处理,以Parquet格式存储,保留了浮点精度的数值字段(NumericValue)作为核心指标,并同步提取置信区间上下限(value_low, value_high)以提供统计不确定性信息。数据集的构建严格遵循统一的模式架构,将国家代码(ISO3)、年份及多维度分层信息(如性别、居住区域)整合为结构化表格,从而形成了可直接用于机器学习流程的标准化数据集。
特点
该数据集的核心特色在于其专注于非洲地区HIV治疗覆盖率的长期追踪,时间跨度长达四分之一世纪,覆盖了从本世纪初至2024年的完整演进过程。数据涵盖43个非洲国家,提供了丰富的国家间与年度间变异信息,为跨区域比较与纵向趋势分析奠定了坚实基础。此外,数据集保留了原始的分层维度信息(如性别、居住地类型)及置信区间,使得用户能够根据研究需求灵活筛选特定亚群或评估估计值的可靠性。所有数据均来自权威的WHO GHO官方来源,并采用CC BY 4.0许可协议发布,确保了数据的公开性与可复现性。作为Electric Sheep Africa统一数据集的组成部分,该数据集采用一致的Parquet格式与模式设计,极大提升了非洲区域健康数据的可发现性与机器学习就绪程度。
使用方法
该数据集可通过HuggingFace的datasets库便捷加载,用户只需调用load_dataset函数并指定数据集标识符即可获取训练集,随后利用to_pandas方法转换为Pandas DataFrame进行后续分析。对于需要聚焦于全国总体水平的应用场景,建议筛选dim1字段中后缀为'_BTSX'或为空值的记录,以排除性别或区域亚组的干扰。若要研究特定国家的时间序列动态,可依据country_iso3列(如'KEN'代表肯尼亚)进行过滤,并结合year列进行排序。该数据集不仅适用于传统的回归预测任务(以value_numeric为目标变量),还可用于分类问题(如基于覆盖率阈值的疗效等级划分),同时支持置信区间信息的概率建模与不确定性量化分析。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经Electric Sheep Africa团队整理后发布于HuggingFace平台,时间跨度为2000年至2024年。核心聚焦于非洲地区接受抗逆转录病毒治疗(ART)的HIV感染者覆盖率估计值(%),涵盖43个非洲国家的1075条观测记录。作为WHO官方开放数据在机器学习领域的再封装,该数据集旨在为非洲艾滋病毒治疗覆盖率的时空分析、政策评估及预测建模提供标准化、高可用的结构化数据基础,对全球健康监测、流行病学研究以及公共卫生资源分配具有显著支撑价值。
当前挑战
数据集面临的核心挑战包括:首先,ART覆盖率估计依赖于各国登记系统与调查数据,在非洲部分地区存在报告延迟、数据缺失或质量参差的情况,影响模型泛化能力;其次,由于各国检测率与治疗可及性不均,覆盖率会因地区、性别(dim1字段含性别分层)或城乡类型不同而存在显著异质性,需要精细分层建模以剥离混杂因素。此外,构建过程中需处理WHO OData API接口返回的非标准化字段与置信区间(value_low/value_high)的整合,同时确保时间序列上因指标定义或数据来源变更导致的断点兼容,为后续研究提出了数据清洗与校准的挑战。
常用场景
经典使用场景
在非洲公共卫生研究领域,该数据集最经典的用途是作为时间序列分析的基石,用于追踪和评估2000至2024年间43个非洲国家的抗逆转录病毒疗法覆盖率变化趋势。研究者能够借助统一的数值字段进行跨国的纵向比较,揭示不同国家在艾滋病治疗可及性方面的进展与差距,为全球健康治理提供数据驱动的洞察。
解决学术问题
该数据集有效解决了非洲地区艾滋病治疗覆盖率长期缺乏标准化、可计算数据的学术困境。通过提供置信区间和一致的数据模式,它支持研究者进行统计建模和假设检验,从而量化健康干预政策的真实效果,并识别影响覆盖率变化的关键社会经济因素,为循证政策制定奠定基础。
衍生相关工作
围绕该数据集衍生的经典工作包括构建预测模型以预估未来治疗缺口,以及开发多变量回归分析来探索覆盖率与卫生支出、教育水平等指标间的关联。此外,它还被用于训练机器学习分类器,用于识别治疗覆盖率低下的高风险地区,推动了一系列聚焦非洲健康不平等问题的计量经济学和流行病学研究。
以上内容由遇见数据集搜集并总结生成



