five

electricsheepafrica/africa-who-tb-patients-with-known-hiv-status

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tb-patients-with-known-hiv-status
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“已知HIV状态的结核病患者百分比”(TB_hivtest_pct)在非洲国家的国家级观察数据,时间跨度为2003年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "TB patients with known HIV status (%)" (TB_hivtest_pct) across African nations, spanning 2003–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦于非洲地区结核病患者已知HIV状态的比例(TB_hivtest_pct)。数据以Parquet格式存储,采用统一模式,覆盖2003至2024年间46个非洲国家的877条观测记录。所有数值均来源于浮点精度的NumericValue字段,而非原始显示字符串,并包含了置信区间上下限等辅助信息,确保数据科学使用的精确性与完整性。
特点
数据集具备高度结构化与即用性,包含indicator_code、country_iso3、who_region、year、value_numeric等核心字段,以及可选的置信区间与分层维度(dim1/dim2)。作为无子维度的单值指标,每个国家-年份组合对应唯一记录,便于时间序列分析与跨区域比较。此外,数据集遵循CC BY 4.0许可,原始数据源自权威的WHO来源,经由Electric Sheep Africa统一整理,显著降低了非洲健康数据的获取与研究门槛。
使用方法
用户可通过HuggingFace的datasets库便捷加载为DataFrame格式,例如使用load_dataset函数直接获取训练集。在分析中,建议针对dim1字段过滤以提取全国性数据(如筛选SEX_BTSX或空值),或利用country_iso3列对单一国家(如肯尼亚)进行时间序列排序与可视化。该数据集既适用于分类任务(如预测HIV检测知晓率区间),也适用于回归建模,为非洲结核病与HIV协同防控的量化研究提供了坚实基础。
背景与挑战
背景概述
在全球公共卫生领域,结核病(TB)与人类免疫缺陷病毒(HIV)的双重感染是非洲大陆面临的严峻挑战。世界卫生组织(WHO)通过全球卫生观察站(GHO)系统长期监测各地结核病患者的HIV检测状况,以评估双感防治进展。在此背景下,非洲结核病患者已知HIV状态比例数据集(africa-who-tb-patients-with-known-hiv-status)于2024年由Electric Sheep Africa团队整理发布,该团队致力于构建非洲统一的机器学习就绪数据资源库。数据集整合了WHO GHO官方API中的原始数据,覆盖2003至2024年间46个非洲国家的年度观测值,聚焦于结核病患者中已知HIV状态的比例(TB_hivtest_pct)这一核心指标。该数据集不仅为结核病-艾滋病协同防控研究提供了标准化的跨时间序列数据,更通过一致的Parquet格式和注释清晰的模式(schema),极大降低了数据预处理门槛,推动了机器学习在非洲公共卫生领域的应用,对全球健康监测数据生态产生了积极的示范效应。
当前挑战
该数据集致力于解决的领域核心问题在于:长期以来,非洲地区结核病与HIV合并感染的数据分散于不同来源,缺乏统一、机器可读的标准化格式,严重制约了基于数据驱动的疾病预测与政策制定。例如,传统的WHO展示数据常以字符串形式呈现(如“58.3 [57.7–59.0]”),难以直接用于定量分析。在构建过程中,团队面临了多重挑战:首先,原始OData API返回的数据存在分层维度(如按性别、城乡划分),需设计稳健的维度过滤逻辑以提取国家级总指标;其次,跨时间序列数据存在部分年份缺失值,需保留置信区间字段以增强统计可靠性;最后,不同国家的报告频率与数据更新延迟不尽相同,需统一时间戳格式并确保数据集的即时性。这些挑战的克服,使得该数据集成为非洲TB-HIV协同监测研究中不可或缺的基础设施。
常用场景
经典使用场景
在结核病与艾滋病共病流行病学研究中,该数据集被广泛用于建模和评估非洲各国结核病患者中已知HIV感染状态的比例趋势。研究者可借助其国家-年份层级的时间序列结构,分析从2003年至2024年间46个非洲国家的HIV检测覆盖率变化,挖掘不同国家间的异质性模式,并构建回归或分类模型来预测未来检测率。其简洁的表格格式和缺失置信区间字段,为时空统计分析、健康指标比较以及机器学习基准测试提供了高质量的数据基础。
实际应用
在实际公共卫生领域,该数据集支持各国卫生部门与全球健康机构(如WHO、非洲疾控中心)进行结核病诊疗质量监测与资源分配优化。通过分析已知HIV状态的结核患者比例,政策制定者可识别检测覆盖率低下的热点地区,从而针对性加强HIV检测服务与抗逆转录病毒治疗的衔接。此外,数据还可用于评估“终结结核病战略”中HIV相关目标的达成进度,指导国际援助资金的有效投放。
衍生相关工作
基于该数据集,衍生出一系列聚焦于非洲卫生系统韧性评估的经典工作。典型范例包括利用时间序列模型预测结核病共病检测率的波动,以及运用分类算法识别影响检测覆盖率的社会经济与地理驱动因子。部分研究将其与WHO其他指标(如艾滋病死亡率、结核病治疗成功率)联合分析,构建多指标关联网络,揭示了HIV检测普及对结核病预后改善的关键中介作用。这些工作深刻影响了全球健康领域的数据驱动型政策模拟与干预优先级排序。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务