electricsheepafrica/africa-who-number-of-people-notified-with-new-episode-of-tb-in-a-given
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-notified-with-new-episode-of-tb-in-a-given
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标在给定年份中报告的结核病新发病例数量(TB_notif_num)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。这是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Number of people notified with new episode of TB in a given year (TB_notif_num) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦非洲地区结核病新发病例通报人数这一关键公共卫生指标。数据覆盖2000年至2021年间47个非洲国家,共计5059条观测记录。原始数据经由OData API获取后,以统一架构的Parquet格式重新封装,提取NumericValue字段作为精准浮点数值,并附带置信区间上下限(value_low与value_high)。通过ParentLocationCode过滤确保区域一致性,所有记录均属于WHO非洲区域办事处(AFRO)覆盖范畴。
特点
该数据集的最大特色在于其多维分层结构,支持按结核病病例类型(如新发与复发、肺外结核等)进行细粒度分析。每条记录包含dim1与dim2维度标识,可区分性别、居住地类型等亚组,便于研究者针对特定分层开展建模。此外,数据集保留了WHO原始元数据(如last_updated时间戳),确保可追溯性。统一的列式架构与标准化编码(ISO 3166-1 alpha-3)使其成为机器学习任务(包括分类与回归)的理想训练资源。
使用方法
研究者可通过HuggingFace Datasets库直接加载数据集,例如使用load_dataset函数获取默认训练集。推荐利用pandas进行数据清洗与分析:通过筛选dim1字段中'_BTSX'后缀或空值来提取两性全国层面数据;按country_iso3列(如'KEN')结合年份排序,即可构建特定国家的结核病通报时间序列。对于预测任务,可直接以value_numeric为目标变量,或基于置信区间设计概率化损失函数。
背景与挑战
背景概述
结核病(TB)作为全球重大公共卫生威胁之一,尤其在非洲地区流行严重,世界卫生组织(WHO)持续监测各国结核病新发病例的通报数量,以评估防治成效。该数据集由Electric Sheep Africa团队于2023年前后整理自WHO全球卫生观测站(GHO)的官方API,涵盖了2000至2021年间47个非洲国家每年通报的新发结核病病例数,指标代码为TB_notif_num。核心研究问题聚焦于利用结构化时空数据,通过机器学习方法预测和解析非洲大陆结核病通报率的分布与变化趋势。该数据集作为统一、即用的非洲数据资源,对推动区域健康分析、促进数据驱动的公共卫生决策具有重要价值,也在WHO开放数据许可下支持低资源环境下的传染病建模研究。
当前挑战
该数据集解决的核心领域问题包括:非洲结核病通报数据的稀疏性与报告偏倚,以及跨国家、跨年份的时空异质性对预测模型泛化能力的挑战。在构建过程中,面临的主要挑战包括:从WHO OData API中异构数据格式的标准化,需将不同层级的分层维度(如性别、居住地类型)统一为一致的架构,同时保留置信区间信息;47个国家在长达22年间存在大量缺失值,尤其早期年份数据质量参差不齐,增加了插补与聚合的复杂性;此外,数据集中不同亚类(如新发与复发、肺内外结核)的划分需要精细的过滤规则,以确保下游分类与回归任务的准确性。
常用场景
经典使用场景
在非洲公共卫生监测与流行病学研究中,该数据集被广泛用于分析结核病(TB)新发病例的通知数量随时间演变的趋势。研究者通常利用其涵盖47个非洲国家、跨度2000至2021年的面板数据,构建时间序列模型或面板数据回归,以评估国家层面结核病防控策略的成效。数据集中提供的性别、居住地类型等维度信息,使得分层分析成为可能,为揭示特定亚群(如男性与女性、城乡之间)在结核病通知率上的差异提供了关键支撑。
实际应用
在实际应用中,该数据集得到了国际卫生组织与非洲各国疾病控制机构的重视。它被用于生成年度结核病流行报告,辅助公共卫生部门识别高负担地区并优化资源分配,例如药物供应与诊断设施布局。非政府组织亦借助其数据点设计针对性健康宣传项目,尤其在性别不平等或农村医疗可及性薄弱的场景中,通过分层数据锁定最需干预的群体,提升防控资金的使用效率。
衍生相关工作
基于该数据集,衍生出多项具有影响力的学术工作。研究者通过构建时空贝叶斯模型,对缺失的结核病通知数据进行插补,并绘制了非洲国家层面的疾病负担热力图。另有经典工作利用该数据与HIV患病率、人均GDP等社会经济指标进行关联分析,揭示了结核病通知数与艾滋病共病负担、贫困程度的深层耦合关系。此类研究不仅丰富了全球健康不平等理论,也为世界卫生组织更新全球结核病控制指南提供了实证依据。
以上内容由遇见数据集搜集并总结生成



