electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-wrelclindx
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-wrelclindx
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“被临床诊断为新的肺TB病例的人数”(`TB_notif_num_newrel_clindx`)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。这是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于世界卫生组织全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Number of people diagnosed with new episode of pulmonary TB who are clinically diagnosed." (`TB_notif_num_newrel_clindx`) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区经临床诊断确诊的初发肺结核病例数量(指标代码TB_notif_num_newrel_clindx)。数据经系统化抽取与清洗后,以Parquet格式存储,保留浮点精度的数值字段作为核心观测值,并附带置信区间上下限。涵盖2000至2021年间47个非洲国家的1023条记录,所有条目均通过WHO AFRO区域代码过滤,确保地域聚焦性。
特点
数据集以统一模式整合了国家、年份、数值及维度分层信息,支持多粒度分析。其独特之处在于包含TB_CASETYPE等子维度,允许按性别、居住地类型等特征进行分层筛选。每一行代表国家×年份×维度的唯一组合,同时提供置信区间字段,增强了统计推断的可靠性。这种结构化设计使数据既适用于分类任务,也适配回归建模,为机器学习研究提供了严谨的基础。
使用方法
用户可通过HuggingFace的datasets库快速加载数据,调用load_dataset函数即可获取训练集,并轻松转换至Pandas DataFrame进行分析。实践中,可依据dim1字段过滤出两性汇总(_BTSX)或全国层面的数据,以排除人口细分干扰。亦可通过country_iso3列筛选特定国家的时间序列,例如对肯尼亚(KEN)数据按年份排序,进而构建预测模型或进行流行病学趋势研究。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织(WHO)全球卫生观察站(GHO)的开放数据整理而成,创建于2023年,旨在为非洲地区结核病监测提供机器学习就绪的结构化数据集。核心研究问题聚焦于非洲国家经临床诊断的肺结核新发病例数量,覆盖了2000年至2021年间47个非洲国家的1023条观测记录,数据来源可靠且遵循CC BY 4.0许可协议。该数据集的发布填补了非洲区域精细化健康数据在机器学习和流行病学研究中的空白,为预测结核病负担、优化资源配置及评估干预政策提供了关键基础,对全球健康数据科学领域具有重要推动作用。
当前挑战
该数据集所应对的领域挑战在于,非洲结核病监测长期面临数据稀疏、报告不全和诊断手段差异导致病例分类困难等问题,传统统计模型难以捕捉时空动态。具体挑战包括:1)临床诊断与实验室确诊病例之间的混杂偏差,影响流行病学估计的准确性;2)各国数据报告质量不一,缺失值和处理置信区间(value_low, value_high)的整合方法缺乏统一标准;3)构建过程中需从WHO OData API提取并清洗多维分层数据(如性别、城乡亚组),确保跨国家跨年份的序列一致性,并处理随时间更新的数据版本问题,以维护时间序列的连续性和可靠性。
常用场景
经典使用场景
该数据集收录了2000至2021年间非洲47个国家中经临床诊断新发肺结核病例的年度统计数据,是结核病流行病学研究中追踪疾病负担变迁的核心资源。研究者可将其作为监督学习任务中的回归或分类目标变量,通过构建时序预测模型来评估区域防控成效,或结合社会经济、气候等协变量探究结核病传播的驱动因子。此外,在公共卫生计量领域,该数据常被用于校验全球疾病负担估算模型的准确性,为风险评估提供实证基础。
衍生相关工作
该数据集衍生出多项标志性工作,包括面向稀疏时间序列的深度贝叶斯插补模型,以及结合遥感夜间灯光数据评估诊断覆盖率的社会经济驱动分析。部分研究利用其置信区间特征开发了不确定性感知的联邦学习框架,在保障国家数据隐私前提下实现跨边界风险建模。此外,基于该数据训练的轻量级预测器已被集成至WHO的电子监测台账系统中,成为非洲结核病智能防控工具箱的基础组件。
数据集最近研究
最新研究方向
该数据集聚焦于非洲大陆经临床诊断的肺结核新发病例数量,在结核病流行病学监测与全球健康治理领域具有前沿价值。当前研究热点集中于利用该时序数据构建预测模型,以揭示非洲地区肺结核诊断缺口与卫生系统脆弱性。结合WHO终结结核病战略的实施进展,该数据集成为评估临床诊断效能与实验室确诊差异的关键工具,尤其在资源有限地区,其分层维度(如性别、城乡)为识别高危人群与优化干预策略提供了实证基础。作为首个面向机器学习的非洲健康数据整合库,该数据集推动了数据驱动型公共卫生决策,为全球结核病负担再评估与可持续发展目标监测注入了量化证据。
以上内容由遇见数据集搜集并总结生成



