electricsheepafrica/africa-who-hiv-positive-tb-patients-on-art
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-hiv-positive-tb-patients-on-art
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“HIV阳性结核病患者接受抗逆转录病毒治疗(ART)百分比”(TB_hiv_art_pct)在非洲国家的国家级观察数据,时间跨度为2003年至2024年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,共800行数据,地区筛选为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator "HIV-positive TB patients on ART (antiretroviral therapy) (%)" (`TB_hiv_art_pct`) across African nations, spanning 2003–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 800 rows, filtered by WHO AFRO region (`ParentLocationCode = AFR`).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,系统收集了2003至2024年间非洲47个国家关于HIV阳性结核病患者接受抗逆转录病毒治疗(ART)比例的年度观察数据。所有数值均来自API返回的浮点精度字段`NumericValue`,而非显示字符串,并同时纳入了置信区间上下界数据。数据集以Parquet格式统一封装,保证了机器学习就绪的一致性架构,共包含800条记录,每条记录代表特定国家与年份的组合。
特点
该数据集的一大特点在于其聚焦于非洲区域,所有观测值均限定于WHO非洲区(AFRO),覆盖了47个非洲国家,提供长达二十余年的时间序列数据。数据包含完整的置信区间信息,为统计建模与不确定性分析提供了支撑。此外,数据集采用统一的架构设计,包含指示代码、国家ISO代码、年份、数值及置信区间边界等字段,并支持通过维度字段(如性别、居住地类型)进行分层分析,适配多种回归与分类任务。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载该数据集,使用`load_dataset`命令即可获取训练集并转换为Pandas DataFrame进行后续分析。为获取全国水平且不分性别的数据,可对`dim1`字段进行筛选,选取以`_BTSX`结尾或缺失的记录。若需研究特定国家的时间趋势,则可通过`country_iso3`字段进行过滤,并按年份排序。数据集的简洁架构使得多国比较、时间序列建模及置信区间可视化等任务易于实现。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO),聚焦于非洲地区HIV阳性结核病患者接受抗逆转录病毒治疗(ART)的百分比。核心研究问题在于量化追踪非洲各国在双重传染病负担下,HIV/TB共感染者的治疗覆盖进展。作为非洲健康数据机器学习标准化的重要尝试,该数据集覆盖47个非洲国家、2003至2024年的时序观测,为区域流行病学建模、卫生政策评估及国际发展目标监测提供了关键基线。
当前挑战
该数据集所解决的领域问题在于:HIV与结核病共感染是非洲公共卫生的重大挑战,量化ART覆盖率的时空变化对评估联合干预效果至关重要。然而构建过程中面临多重挑战:首先,WHO原始数据存在不完整性与出版延迟,部分国家特定年份的观测值缺失或置信区间信息不全,影响模型训练鲁棒性;其次,非洲各国医疗卫生基础设施参差不齐,数据报告标准不一,部分维度(如性别、城乡)分层缺失,限制了细粒度分析能力;最后,仅800条记录的小样本规模,使得时空外推与高维特征工程面临过拟合风险。
常用场景
经典使用场景
该数据集汇聚了2003年至2024年间47个非洲国家HIV阳性结核病患者接受抗逆转录病毒治疗(ART)的百分比数据,是评估非洲大陆结核病与艾滋病双重感染防治成效的关键资源。其最经典的使用场景在于构建时间序列预测模型,以追踪和预估各国ART覆盖率的变化趋势;同时亦广泛应用于区域间比较分析,揭示不同国家在联合抗感染治疗中的进展与差距。研究者常将此数据与WHO全球卫生观察站的其他指标(如结核病发病率、HIV感染率)融合,探索治疗覆盖率与流行病学结局之间的关联。数据集的简洁结构——每行对应国家-年份的唯一观测值——使其成为机器学习入门级回归与分类任务的理想素材,尤其适合用于演示缺失值处理、置信区间利用及区域聚合等数据工程流程。
实际应用
在实际应用场景中,该数据集为国际卫生组织、非洲各国疾病控制部门及非政府组织提供了可操作的决策依据。公共卫生机构可依据各国ART覆盖率的变化轨迹,动态调整抗逆转录病毒药物的采购与分配计划,识别治疗覆盖薄弱的地区并优先配置资源。在项目评估领域,监测与评价团队能利用时间序列数据对比政策实施前后的覆盖变化,量化干预措施的实际效果。此外,该数据集也可嵌入实时数据仪表盘,辅助流行病学工作者快速识别覆盖率异常下降的国家,及时预警潜在的疫情反弹风险。对于发展金融机构而言,治疗覆盖率数据还可作为衡量卫生援助项目影响力的核心指标,指导资金投向最需要支持的非洲国家与人群。
衍生相关工作
基于该数据集,学界已衍生出若干引人瞩目的经典研究工作。在方法学层面,研究者利用其面板数据结构开发了针对稀疏纵向数据的因果推断框架,例如结合双重差分与倾向性评分匹配的方法,用以评估国际卫生合作项目对ART覆盖率提升的净效应。在具体应用上,该数据集催生了多篇关于非洲HIV/TB联合治疗区域差异的时空分析论文,其中不少工作进一步整合了地理遥感数据与人口流动模型,揭示了治疗覆盖率与环境因素、迁移模式之间的交互作用。此外,该数据集作为Electric Sheep Africa系列的重要成员,亦被广泛用于基准测试与迁移学习研究,尤其是在低资源场景下预测建模的性能验证中扮演了核心角色,推动了面向非洲本土数据的机器学习方法论革新。
以上内容由遇见数据集搜集并总结生成



