five

electricsheepafrica/africa-who-percentage-of-hiv-positive-results-returned-to-people-in

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-percentage-of-hiv-positive-results-returned-to-people-in
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2022年至2024年期间,世界卫生组织全球健康观察指标(WHO GHO indicator)Percentage of HIV-positive results returned to people in the calendar year(HIV_POSITIVITY)的国家级观测数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段,而非显示字符串。此外,数据还包括置信区间边界(value_low, value_high)等信息。数据集覆盖了41个非洲国家,总共有361行数据,并且按性别等子维度进行了分层。

This dataset contains country-level observations for the WHO GHO indicator Percentage of HIV-positive results returned to people in the calendar year (HIV_POSITIVITY) across African nations, spanning 2022–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在全球公共卫生领域,准确追踪艾滋病病毒阳性结果的反馈比例对于评估检测服务的有效性至关重要。该数据集源自世界卫生组织全球卫生观察站的OData API,聚焦于非洲地区2022至2024年间各国“年度内HIV阳性结果反馈给患者百分比”(指标代码HIV_POSITIVITY)的官方统计数据。数据以Parquet格式重新封装,采用统一的模式结构,所有数值均取自浮点精度的原始字段而非展示字符串,并保留了可用的置信区间上下界,确保了数据的一致性与科研可用性。
特点
该数据集涵盖41个非洲国家、361条观测记录,并支持按性别(如男女综合、男性、女性)等维度进行分层分析,每条记录均包含国家代码、年份、点估计值及置信区间等标准化字段。其特色在于数据经过WHO非洲区域的严格过滤,且针对每个国家-年份-维度的独特组合生成独立行,便于研究者灵活过滤或聚合所需子集,为机器学习驱动的健康指标建模提供了高质量、可直接使用的结构化数据。
使用方法
使用者可通过HuggingFace的datasets库便捷加载该数据集,例如使用`load_dataset`函数获取训练集并转换为Pandas DataFrame。利用内置的维度列(如`dim1`)可快速筛选出仅含“两性综合”(SEX_BTSX)的全国层面数据,或通过国家代码(如KEN)与年份排序提取特定国家的时间序列。该数据集既适用于表格分类任务,也适用于回归分析,为预测建模、趋势评估及公共卫生政策研究提供了简洁而强大的数据接口。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观测站(GHO)创建,并经Electric Sheep Africa团队整理后发布,其核心研究问题聚焦于非洲地区HIV阳性检测结果反馈至个体的比例,这一指标直接关联着艾滋病防控链条中“知情并连接至治疗”的关键环节。数据覆盖2022至2024年间41个非洲国家,通过标准化架构整合了性别、居住区域等分层维度,为机器学习驱动的政策评估与流行病学建模提供了高价值的基础数据。在数据科学促进公共卫生决策的浪潮中,该数据集填补了非洲大陆HIV监测领域精细化、结构化开放数据的空白,有力推动了区域卫生治理的数据驱动转型。
当前挑战
该数据集所解决的领域挑战在于,传统HIV监测数据常以国家年为单位粗略汇总,缺乏可互操作、机器可读的结构,难以支撑精细化的预测模型与跨时空比较。而构建过程中的挑战则来自多源异构数据的清洗与对齐,包括不同权威机构间编码规则不统一、置信区间不完整、分层维度(如性别、城乡)缺失或标记不一致等。此外,部分年份和国家样本量极小,且数据现仅覆盖2022至2024年,时间跨度短,难以捕捉长期趋势,为模型泛化能力与因果推断带来显著约束。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于评估HIV检测服务链的最后一环——阳性结果告知率。研究者可基于‘HIV_POSITIVITY’指标,量化各国在相同年份内将HIV阳性检测结果成功反馈给个体的比例,以此剖析国家间卫生系统衔接效率的差异。经典场景包括借助年份与国别维度的面板数据,绘制非洲大陆阳性结果回传率的时空变迁图谱,或结合性别分层变量(SEX_BTSX、SEX_FMLE、SEX_MLE),揭示性别维度下的告知率鸿沟,从而为优化检测后咨询与病例管理策略提供数据支撑。
解决学术问题
该数据集精准回应了‘检测即治疗’(Test and Treat)策略实施过程中的核心学术关切:检测阳性后,个体能否及时获知自身状况?学界常苦于缺乏标准化、跨国的告知率观测指标,而此数据集依托WHO GHO统一框架,提供了41个非洲国家2022—2024年的可比统计值,首次使得大规模跨国比较分析成为可能。它解决了先前研究因数据碎片化而无法评估HIV疫情‘90-90-90’目标中首项指标(知晓自身感染状态)推进成效的难题,为量化卫生系统在阳性结果传递环节的瓶颈、评估干预政策(如同伴导航与短信提醒)的实际影响力奠定了可复现的实证基础。
衍生相关工作
围绕此数据集衍生出多项标志性工作:其一是基于面板回归模型,探究告知率与医疗基础设施密度(如每万人诊所数)或互联网覆盖率之间的弹性关系,揭示数字化健康干预的潜在杠杆点。其二是利用分层贝叶斯模型,对性别、年龄组(若未来纳入)的告知率缺失值进行插补,生成更完整的非洲HIV检测后服务热力图。其三,部分团队将其与WHO另一关键指标‘HIV检测阳性率’进行联合空间自相关分析,鉴别出告知率滞后但疫情负担沉重的‘双重脆弱’国别集群。这些工作均仰赖于该数据集提供的一致性结构化字段与跨年可比优势,推动了机器学习在基层卫生系统绩效预测中的方法论创新。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务