electricsheepafrica/africa-who-number-of-incident-tuberculosis-cases-nctbhivnum
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-incident-tuberculosis-cases-nctbhivnum
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2024年间,世界卫生组织全球健康观察指标Number of incident tuberculosis cases, (HIV-positive cases)(TB_e_inc_tbhiv_num)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。数据集包含46个非洲国家,共1,139行数据,涵盖了数值估计值、置信区间边界等信息。
This dataset contains country-level observations for the WHO GHO indicator Number of incident tuberculosis cases, (HIV-positive cases) (TB_e_inc_tbhiv_num) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
结核病作为全球重大公共卫生挑战,尤其在HIV高负担的非洲地区,其发病率监测对疾病防控至关重要。本数据集聚焦于世界卫生组织全球卫生观察站(WHO GHO)指标“TB_e_inc_tbhiv_num”,即HIV阳性人群中新发结核病病例数,覆盖2000至2024年间46个非洲国家的年度观测数据。数据通过WHO GHO的OData API直接获取,经清洗与标准化后以Parquet格式存储,保留了来自NumericValue字段的浮点精度数值,并纳入置信区间上下限,确保统计严谨性与机器学习友好性。
特点
该数据集核心特征在于其聚焦非洲区域的精准粒度和结构化设计。涵盖非洲46国、累计1139条记录,每条观测均包含国家ISO代码、年份、数值估计及其置信区间,且无子维度分层,确保每个国家-年份组合对应唯一数据点。特别设计了dim1/dim2字段以支持性别、城乡等亚群过滤,而value_display字段保留了WHO原始显示格式,兼顾定量分析与数据溯源需求。一致性模式与完整性使该数据集成为非洲结核病流行病学建模的理想基准资源。
使用方法
数据集的调用极为便捷,通过HuggingFace的datasets库即可一键加载。典型流程为使用load_dataset函数获取训练集,再转换为pandas DataFrame进行后续分析。针对不同分析目标,可通过dim1字段筛选全国总体数据(如过滤以_BTSX结尾或空值),或对国家层面的时间序列进行切片,例如使用country_iso3字段提取肯尼亚数据并按年份排序。该数据集也可直接用于机器学习中的回归与分类任务,以value_numeric作为目标变量,探索艾滋病病毒共感染对结核病发病的影响趋势。
背景与挑战
背景概述
结核病与艾滋病病毒(HIV)的双重感染是非洲地区严峻的公共卫生挑战之一。为了精准评估这一领域的疾病负担,世界卫生组织(WHO)全球卫生观察站(GHO)于2000年至2024年间系统收集了非洲各国HIV阳性结核病新发病例的统计数据。该数据集由Electric Sheep Africa团队重新整合并标准化,涵盖了46个非洲国家的1139条观测记录,以一致的Parquet格式呈现,旨在为机器学习驱动的流行病学建模提供高质量的数据基础。这一资源的发布填补了非洲区域结核病-HIV共病监测数据在机器学习友好型存储方面的空白,推动了基于数据驱动的区域健康政策制定与干预策略优化。
当前挑战
该数据集所应对的核心挑战在于非洲地区结核病与HIV双重感染病例的精确估计与时空动态监测。由于各国医疗基础设施与报告系统的差异,原始数据存在显著缺失与统计口径不一致的问题,增加了建模的复杂性。构建过程中,团队需从WHO OData API获取原始指标后,统一清理、筛选出仅含非洲区域的非分层数据,并保留置信区间以体现估计不确定性。此外,该数据集仅提供国家层面的年度点估计,缺乏更精细的地理与人口分层,可能导致模型在推断局部流行趋势时面临偏差与精度不足的挑战。
常用场景
经典使用场景
在结核病与艾滋病双重感染的流行病学研究中,该数据集为分析非洲地区HIV阳性结核病发病病例数的时间演变格局提供了核心支撑。研究者可借助其涵盖2000至2024年、覆盖46个非洲国家的面板数据,构建时空趋势模型,揭示不同国家与地区在结核病-HIV共病负担上的差异与共性。其结构化字段如点估计值与置信区间,使得对发病规模的定量刻画与不确定性评估成为可能,为疾病负担的空间异质性研究奠定了数据基础。
解决学术问题
该数据集有效回应了非洲地区结核病-HIV共病流行病学中长期存在的两大学术困境:一是高质量、可互操作的标准化数据稀缺,二是跨国比较分析中的指标口径不一。通过整合WHO全球卫生观察站官方数据并统一清洗为Parquet格式,它使得学者能够系统评估抗逆转录病毒治疗推广对结核病发病率变化的量化影响,检验‘90-90-90’目标在真实世界的成效,并探索社会经济因素与双感负担之间的统计关联。
衍生相关工作
围绕该数据集已衍生出多项具有学科影响力的工作。其一是利用机器学习回归模型对非洲结核病-HIV共病发病率进行预测,并与WHO官方估算进行交叉验证;其二是结合World Bank、IHME等数据库构建多源健康经济面板,探索卫生支出、人均GDP与疾病负担之间的非线性关系。此外,以该数据集为基线的时空贝叶斯模型也被用于识别高发‘热点’国家,为精准干预策略的制定提供动力学依据。
以上内容由遇见数据集搜集并总结生成



