five

electricsheepafrica/africa-who-tested-tb-patients-hiv-positive

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tested-tb-patients-hiv-positive
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标接受结核病检测的患者中HIV阳性百分比(TB_hivtest_pos_pct)在非洲国家的国家级观察数据,时间跨度为2003年至2024年。这是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Tested TB patients HIV-positive (%) (TB_hivtest_pos_pct) across African nations, spanning 2003–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区结核病患者中HIV阳性检测比例的指标(TB_hivtest_pos_pct)。数据经过系统化抽取与再封装,整合为Parquet格式文件,并遵循统一的数据模式。所有数值均取自精确浮点字段NumericValue,而非展示字符串,同时保留了置信区间上下限值(value_low与value_high),确保数据精度与统计完整性。数据集覆盖2003至2024年间46个非洲国家的观测结果,共计869条记录,仅筛选WHO AFRO区域(ParentLocationCode=AFR)的数据,形成专为机器学习设计的标准化存储库。
特点
该数据集具备高特异性与地域聚焦性,仅针对非洲地区结核病患者的HIV阳性检测比例,无额外子维度分层,每个国家与年份组合对应单一数值,简化了分析复杂度。其核心优势在于数据来源权威,直接源于WHO官方发布,并经过严格清洗与格式统一,包含点估计值以及可选的置信区间,支持统计推断与不确定性评估。此外,数据集以Parquet格式存储,列模式清晰,涵盖国家代码、年份、数值及更新标记等关键字段,便于高效加载与集成至机器学习流程中。
使用方法
数据集可通过Hugging Face的datasets库便捷加载,调用load_dataset函数即可获取训练集,并转换为Pandas DataFrame以进行进一步操作。使用者可依据dim1字段过滤出全国层级且不分性别(如SEX_BTSX)的数据子集,以聚焦宏观趋势;同时支持按国家代码(country_iso3)筛选特定国家的时间序列,例如通过条件过滤提取肯尼亚的数据并按年份排序。推荐在回归或分类任务中使用value_numeric作为主要目标变量,并结合置信区间评估预测可靠性,适用于公共卫生领域的建模与政策分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年从世界卫生组织全球卫生观察站(WHO GHO)的OData API中整理并发布,核心研究问题聚焦于非洲地区结核病(TB)患者中HIV阳性检测比例的时空分布。该指标(TB_hivtest_pos_pct)对于理解结核病与艾滋病共感染(TB-HIV co-infection)的流行病学模式至关重要,是制定联合防控策略的关键依据。数据集覆盖2003年至2024年间46个非洲国家的869条观测记录,为机器学习模型提供了标准化、机器可读的非洲健康数据基础。其发布填补了非洲大陆卫生数据在公共可获取、高质量、统一格式方面的空白,推动了数据驱动的TB/HIV协同研究与政策评估。
当前挑战
该数据集所解决的领域问题在于量化非洲各国TB患者中HIV阳性率的长期趋势,以应对TB-HIV共感染率居高不下且地区差异显著的全球健康挑战。在构建过程中,主要挑战包括:首先需从WHO GHO庞杂的多元指标中精确提取目标指标,并处理原始API返回的多种数据类型(如数值、置信区间及格式化字符串),确保数值精度与一致性;其次,非洲国家间数据报告的时空不完整性导致部分年份和国家缺失观测值,需设计稳健的缺失处理逻辑;此外,避免对指标的维度划分(如性别、城乡)造成分析偏差,并维护跨年度、跨国家的元数据同步更新,均是确保数据集可靠性必须克服的障碍。
常用场景
经典使用场景
该数据集聚焦于非洲地区结核病患者中HIV阳性比例的流行病学监测,涵盖2003至2024年间46个非洲国家的年度观测数据。其经典使用场景在于构建时间序列预测模型与空间流行病学分析,例如利用国家层面的结核-艾滋病共病比率,追踪区域疫情演变趋势,或作为协变量纳入全球健康指标建模,以量化艾滋病对结核病防控成效的潜在影响。
实际应用
在实际应用层面,该数据集为非洲各国卫生部门及国际组织(如世界卫生组织、全球基金)提供了循证决策支持。公共卫生从业者可基于历年趋势识别高共病率国家,优化结核病与艾滋病联合筛查与治疗资源的配置;同时,该数据也被用于训练机器学习模型,以预测资源有限地区共病负担的未来走向,提升疫情预警与应对的精准性。
衍生相关工作
围绕该数据集,衍生出了一系列经典工作:一方面,它作为非洲健康数据仓库(Electric Sheep Africa)的核心组件,驱动了面向欠发达地区的多指标联合分析研究;另一方面,基于该数据的时空建模成果被用于修正全球疾病负担(GBD)估计中的非洲区域偏差,并催生了关于结核病控制策略中HIV筛查覆盖率优化的计量经济学论文,推动了开放数据在数字健康领域的复用范式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务