five

electricsheepafrica/africa-who-number-of-incident-tuberculosis-cases-tbeincnum

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-incident-tuberculosis-cases-tbeincnum
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标结核病新发病例数(TB_e_inc_num)在非洲国家层面的观测数据,时间跨度为2000年至2024年。它是Electric Sheep Africa项目的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值都来自NumericValue字段(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为1,164行,区域筛选为WHO非洲区域(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Number of incident tuberculosis cases (TB_e_inc_num) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,164 rows, regionally filtered to WHO AFRO (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集聚焦于非洲地区结核病发病病例数的国家层面观测数据,源自世界卫生组织全球卫生观察站(WHO GHO)的官方OData API。原始数据经重新打包为Parquet文件,并采用统一的数据模式,所有数值均取自浮点精度的`NumericValue`字段,而非显示字符串。数据集涵盖2000年至2024年间47个非洲国家的1164条记录,按国家、年份及可能的维度(如性别、居住地类型)组织,并在可用情况下包含置信区间上下界,使其高度适配机器学习的回归与分类任务。
特点
该数据集的核心特色在于其针对非洲区域的专一性与结构化一致性。所有观测均限于WHO非洲区域(AFRO),确保地域聚焦;同时提供统一的字段命名和类型定义,如`indicator_code`、`country_iso3`、`year`及`value_numeric`等,便于跨数据集融合。数据无子维度时每个国家每年仅一条记录,但预留`dim1`和`dim2`字段以支持分层分析,例如按性别或城乡划分,灵活性显著。此外,数据遵循CC BY 4.0许可协议,来源可靠且开放访问。
使用方法
使用该数据集极为简便,用户可通过HuggingFace的`datasets`库一键加载:`load_dataset("electricsheepafrica/africa-who-number-of-incident-tuberculosis-cases-tbeincnum")`,并转换为Pandas DataFrame进行后续分析。为获取国家层面的总体数据,可筛选`dim1`字段以排除细分维度(如仅保留`SEX_BTSX`或空值)。时间序列分析则可通过`country_iso3`过滤特定国家并按`year`排序实现。数据集亦可作为多任务学习的输入,结合其他健康指标共同建模,提升预测效能。
背景与挑战
背景概述
结核病作为全球致死率最高的传染性疾病之一,在非洲地区尤为严峻,准确估算各国的结核病发病病例数目对于公共卫生资源配置与干预策略制定具有关键意义。该数据集由世界卫生组织全球卫生观测站于2024年发布,由Electric Sheep Africa团队重新整理并托管至HuggingFace平台,核心研究问题聚焦于非洲47个国家在2000至2024年间结核病发病病例数的时间序列动态。凭借其统一、机器学习的友好格式以及WHO官方数据源的可信度,该数据集为非洲结核病流行病学建模、疾病预测及政策评估提供了标准化基准,有力推动了人工智能在非洲公共卫生领域的数据驱动研究。
当前挑战
所解决的领域挑战主要源于结核病发病率在非洲各国间存在巨大差异,且数据缺失与报告不及时导致传统统计分析方法难以捕捉真实趋势,同时缺乏统一格式的公开数据集严重阻碍了机器学习模型的跨地域泛化。构建过程中,挑战体现在从WHO OData API爬取多维指标时需处理API响应不稳定、格式不一致等问题,并需精确剥离NumericValue以避免字符串解析误差,同时针对置信区间上下界缺失值进行妥善标记,以及确保47个国家的时间序列数据在时空维度上保持完整性与一致性。
常用场景
经典使用场景
在非洲结核病流行病学研究中,该数据集被广泛用于构建发病率的时空预测模型。研究者可基于47个非洲国家2000至2024年的年度发病例数,结合社会经济、气候或医疗卫生基础设施等协变量,训练回归模型以揭示结核病传播的动态演变规律。其结构化格式和置信区间字段也便于开展不确定性量化研究,评估预测的稳健性。
实际应用
在实际公共卫生决策中,该数据集可辅助各国卫生部门进行资源优化配置,例如依据发病例数时空分布预测结果,动态调整结核病诊断试剂、药品和诊疗设施的部署。国际组织如WHO非洲区域办事处亦可借助其时间序列分析,监控“终结结核病战略”的阶段性目标达成情况,识别高负担国家并定向实施干预措施。
衍生相关工作
该数据集衍生出多项经典工作,包括构建非洲结核病发病率的贝叶斯时空层次模型以捕捉国家间异质性,开发基于图神经网络的疾病传播网络推断方法,以及融合遥感气象数据的多模态预测框架。此外,相关研究还利用该数据验证了性别、城乡维度下发病差异的统计显著性,推动了结核病社会决定因素的实证分析。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务