electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-numlabconf
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-numlabconf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2000年至2021年间WHO GHO指标“被细菌学确认的新发肺结核病例数”(TB_notif_num_labconf)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of people diagnosed with new episode of pulmonary TB who are bacteriologically confirmed." (TB_notif_num_labconf) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集来源于世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,汇集了非洲地区2000年至2021年间经细菌学确诊的初治肺结核病例数量(即TB_notif_num_labconf指标)。数据经由Electric Sheep Africa项目统一整理,转换为Parquet格式并采用一致的列结构。所有数值均直接取自原始的float精度字段NumericValue,而非显示字符串,同时包含了可用的置信区间上下界。数据集涵盖47个非洲国家,共计996条观测记录,每个条目代表特定国家与年份的组合,若存在性别或居住地类型等子维度划分,则生成独立行以反映分层信息。
特点
此数据集的核心特点在于其高度结构化与机器学习的友好性。它提供了时间跨度长达22年的面板数据,便于进行纵向分析与趋势挖掘。列名清晰且语义明确,包含指示器代码、国家ISO3代码、WHO区域、年份、数值点估计及置信区间等关键字段,特别适合用于回归或分类任务。此外,数据集中包含了对病例类型(如仅限细菌学确诊的肺结核)与子维度的显式标注(dim1、dim2),使得研究人员可以灵活选择特定亚组(如仅限男女合计的全国层面数据)进行分析,从而有效过滤混杂因素。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,仅需一行代码即可转换为Pandas DataFrame进行后续操作。例如,利用load_dataset函数直接获取训练集,随后通过DataFrame的筛选功能快速提取特定子集,比如仅保留dim1列中以'_BTSX'结尾的行,即可得到全国层面男女合计的数据。也可以按国家代码(如'KEN')筛选出肯尼亚的时序数据,并按年份排序以评估其肺结核确诊数的演变趋势。这种简洁的加载与过滤流程,极大降低了数据预处理的门槛,使得研究者能够专注于建模与分析工作。
背景与挑战
背景概述
结核病(TB)作为全球公共卫生领域的重大威胁,尤其在非洲地区,其准确监测与防控至关重要。世界卫生组织(WHO)全球卫生观察站(GHO)发布的“非洲地区经细菌学确诊的初治肺结核新发病例人数”指标(TB_notif_num_labconf),自2000年至2021年间,系统追踪了47个非洲国家的疫情动态。该数据集由Electric Sheep Africa团队在2021年基于WHO官方API重新整理并标准化为机器学习友好格式,旨在填补非洲大陆结核病监测数据在开放科学领域的空白。通过提供统一的Parquet文件和一致的列模式,它极大便利了流行病学建模、时空趋势分析及政策评估,成为连接全球卫生数据与本土化应用的枢纽性资源。
当前挑战
该数据集所应对的领域挑战在于结核病传播的复杂异质性:非洲地区医疗资源匮乏、诊断覆盖率不均及数据报告滞后,导致传统统计方法难以精准捕捉疫情的真实时空演变。其构建过程亦面临严峻障碍,包括原始数据在47个国家间的分类标准不一致、长时段缺失值处理以及多维度分层(如性别、城乡)带来的聚合偏差。此外,WHO原始API的接口限制和不同年份数据版本的兼容性问题,要求清洗时兼顾纵向可比性与机器学习建模对数据完整性的要求,最终在仅996条记录的小样本规模下,平衡统计效力与表征鲁棒性。
常用场景
经典使用场景
在非洲结核病流行病学研究中,该数据集最经典的应用场景是构建基于时间的预测模型,以估计各国新发细菌学确诊肺结核病例数的长期趋势。研究者可将其作为监督学习任务中的回归目标变量,借助国家、年份等特征,结合机器学习算法如随机森林或梯度提升树,对结核病负担进行定量刻画。同时,数据集提供的置信区间边界值使得不确定性建模成为可能,从而提升预测的稳健性与解释力。此外,分层字段(如性别、城乡)的引入,为群体层面的子群分析提供了数据支撑,支持研究者深入探讨不同人群间的诊断数量差异。
解决学术问题
该数据集有效解决了非洲区域结核病监测数据碎片化与标准化缺失的问题。通过整合WHO全球卫生观察站中47个非洲国家长达二十余年的官方通报数据,它为研究者在时空维度上分析结核病诊断率的分布规律提供了可靠基础。基于此数据,学者能够系统检验疾病监测系统在资源有限环境下的数据质量,探讨性别、年龄及居住地对确诊率的影响机制,并量化各国在WHO终结结核病战略中的进展差距。其开放许可与机器可读格式还支持大规模复现性研究,推动非洲流行病学建模方法论的迭代与深化。
衍生相关工作
围绕该数据集,衍生出了多个具有代表性的经典工作方向。在方法论层面,研究者开发了面向稀疏时空面板数据的因果推断框架,探索公共卫生政策(如DOTS策略推广)对细菌学确诊人数的影响。在建模实践上,有团队基于该数据构建了贝叶斯层级模型,用以插补缺失年份的国家级观测值,生成后验分布支持的不确定性区间。此外,该数据集被用于验证跨国家迁移学习策略在低资源环境下的有效性,即利用数据丰富国家的模式辅助数据稀缺国家的预测。在开源生态中,它还催生了若干可复现的结核病分析流水线,降低了非洲健康数据科学的研究门槛。
以上内容由遇见数据集搜集并总结生成



