electricsheepafrica/africa-who-tuberculosis-treatment-coverage
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tuberculosis-treatment-coverage
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)关于非洲国家结核病治疗覆盖率(指标代码:TB_1)的国家级观测数据,时间跨度为2000年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,共计1,134行数据,仅限于WHO AFRO区域(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator "Tuberculosis treatment coverage" (`TB_1`) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 1,134 rows, filtered to the WHO AFRO region (`ParentLocationCode = AFR`).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集聚焦非洲地区肺结核治疗覆盖率的监测需求,源自世界卫生组织全球卫生观察站(WHO GHO)的公开API接口。原始数据经系统性抽取与清洗后,以Parquet格式统一封装,保留浮点精度的原始数值字段而非显示字符串,并纳入置信区间上下界以增强统计完整性。涵盖2000至2024年间47个非洲国家的年度观测记录,共计1134行,所有条目均通过WHO AFRO区域代码筛选,确保地理聚焦的精准性。
特点
数据集以国家-年份为基本粒度,无额外分层维度,每对组合对应唯一观测值,结构简洁明了。包含指标代码、ISO国家代码、WHO区域、年份、数值估计及其置信区间、展示字符串、分层类型与数值、更新戳等字段,便于直接用于分类或回归任务。其标准化schema设计降低了机器学习的预处理门槛,尤其适合时间序列分析与跨国比较研究,同时保留原始数据元信息以支持可溯源验证。
使用方法
使用者可通过HuggingFace的datasets库直接加载数据集,将其转换为pandas DataFrame进行灵活操作。典型流程包括加载全量数据,利用dim1字段过滤出两性综合或特定分层(如性别、城乡)的子集,再按年份排序以构建国家级时间序列。示例代码展示了加载、筛选与排序的核心步骤,并建议根据具体研究问题通过条件表达式聚合不同维度下的观测值,高效适配各类分析需求。
背景与挑战
背景概述
结核病作为全球重大公共卫生威胁之一,尤其在非洲地区仍呈现高负担态势,准确评估治疗覆盖率对于监测疾病控制进展与优化资源配置至关重要。该数据集由Electric Sheep Africa团队于2024年基于世界卫生组织全球卫生观察站数据构建,核心研究问题聚焦于非洲大陆47个国家在2000年至2024年间结核病治疗覆盖率的时空动态。通过整合WHO官方API提供的标准化指标TB_1,该数据集以结构化表格形式呈现国家层面的点估计值及置信区间,为机器学习驱动的流行病学建模提供了高质量基准。其影响力体现在弥合了非洲健康数据碎片化与AI就绪性之间的鸿沟,成为首个系统化覆盖全非区域、兼具时间纵深与统计精度的结核病治疗监测资源,有力支撑了可持续发展目标中终结结核病流行进程的量化评估。
当前挑战
该领域面临的核心挑战在于非洲地区结核病监测体系的脆弱性:许多国家缺乏完备的病例报告系统,导致治疗覆盖率估算高度依赖间接统计模型,而部分年份的数据缺失进一步加剧了时间序列分析的偏倚风险。构建过程中遭遇的多重困难包括:跨47国数据源的异质性处理,例如不同国家采用差异化的病例定义与上报周期,需通过WHO标准化转换流程进行协调;原始API返回的数值与显示字符串间的精度差异要求严格选择浮点型原始字段;置信区间存在部分缺失,限制了不确定性量化模型的应用;此外,亚维度(如性别、城乡)的原始数据分层不完整,在保留统计效力的同时需谨慎处理聚合与过滤逻辑。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,结核病治疗覆盖率数据集的经典应用在于对结核病控制进程的纵向追踪分析。研究者常利用该数据集的时间序列特性,结合47个非洲国家2000至2024年的面板数据,揭示治疗覆盖率在不同国家间的差异格局与演变趋势。通过挖掘置信区间内的波动,学者能够评估各国结核病干预策略的实际效果,并描绘区域层面的防控进展。这类分析通常构成政策评估与健康系统绩效研究的基础,为理解非洲大陆结核病负担的动态变化提供了关键数据支撑。
解决学术问题
该数据集有效回应了非洲结核病研究领域长期存在的精准数据匮乏与标准化难题。以WHO GHO官方权威数据为基础,它解决了跨国可比性缺失这一学术瓶颈,使研究者能够跨越不同统计口径,构建统一的计量模型。基于此,学界得以系统评估结核病治疗覆盖与关联干预措施之间的因果联系,检验全球终结结核病战略的区域落实效果。这一数据资产的开放共享,显著增强了学术研究在有限资源区域内的刻画能力和证据效力,推动了针对非洲卫生治理挑战的实证探索。
衍生相关工作
基于该数据集衍生的学术工作主要涉及结核病治疗覆盖率预测建模、面板数据因果推断以及跨病种健康指标关联分析。研究者常将本数据与非洲国家人均GDP、医疗卫生支出及HIV发病率等社会经济和流行病学变量相融合,构建多因素固定效应模型,量化影响结核病治疗覆盖水平的关键驱动因子。此外,部分经典工作利用该时序数据训练机器学习回归器,对非洲区域未来若干年的治疗覆盖率进行短期预测,为前瞻性卫生规划赋予数据驱动的洞察力。这些衍生研究共同拓展了数据本身在公共卫生模拟与政策仿真中的学术纵深。
以上内容由遇见数据集搜集并总结生成



