electricsheepafrica/africa-who-smear-positive-tuberculosis-case-detection-rate
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-smear-positive-tuberculosis-case-detection-rate
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2000年至2008年间,世界卫生组织全球健康观察指标涂片阳性肺结核病例检出率(%)的国家级观察数据。作为Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。
This dataset contains country-level observations for the WHO GHO indicator Smear-positive tuberculosis case-detection rate (%) across African nations, spanning 2000–2008. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API,聚焦非洲地区痰涂片阳性结核病病例检出率(MDG_0000000030指标)。数据经系统化重构,以Parquet格式文件统一存储,涵盖2000年至2008年间46个非洲国家的年度观测值。所有数值均提取自NumericValue浮点精度字段,而非显示字符串,同时保留了可获取的置信区间上下界(value_low与value_high),确保数据精确性与统计完整性。作为Electric Sheep Africa系列的一部分,该数据集以机器学习就绪的标准化模式呈现,便于直接用于分析。
特点
该数据集的核心特点在于其聚焦非洲区域的结核病监测指标,覆盖46个国家共84条记录,时间跨度为九年。数据无子维度分层,每个国家每年仅对应单一检出率值,结构简洁清晰。模式中包含了indicator_code、country_iso3、year、value_numeric等关键字段,并附加置信区间与维度信息,便于进行纵向趋势分析或跨国比较。由于数据源自WHO官方渠道并采用CC BY 4.0许可,其权威性与开放可复用性得以保障。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,调用load_dataset函数即可获得训练集格式的Pandas DataFrame。针对仅需总体检出率的场景,可利用dim1字段筛选以_BTSX结尾的两性别混合数据或缺失值,剔除性别或城乡亚组分层。例如,通过country_iso3筛选特定国家(如KEN表示肯尼亚),并结合sort_values按年份排序,可快速提取该国的历年时间序列,适用于建模或可视化分析。
背景与挑战
背景概述
在应对全球公共卫生挑战的进程中,结核病作为严重威胁人类健康的传染性疾病,其早期发现与有效治疗是控制疫情蔓延的关键。世界卫生组织全球卫生观察站(WHO GHO)积累了丰富且权威的结核病监测数据,其中涂阳结核病病例检出率是衡量结核病防控效率的核心指标之一。该数据集由Electric Sheep Africa团队于近年整理发布,聚焦2000年至2008年间46个非洲国家的涂阳结核病病例检出率,源自WHO官方OData API,并以统一的Parquet格式重新封装,旨在为机器学习研究提供结构化、可直接使用的非洲卫生数据资源。这一数据集的诞生填补了非洲地区结核病检测率标准化数据的空白,为评估非洲大陆结核病防控进展、推动实现联合国千年发展目标中相关健康指标提供了关键支撑,对全球健康数据共享与区域公共卫生研究具有重要影响力。
当前挑战
该数据集所涉及的领域挑战主要在于涂阳结核病病例检出率作为关键绩效指标,其准确评估与多因素交织。首先,非洲各国卫生系统能力参差不齐,部分国家实验室基础设施薄弱、诊断资源匮乏,导致报告数据可能低估真实检出水平。其次,数据集时间跨度仅覆盖2000至2008年,且仅包含84条国家-年度观测记录,样本量极小,限制了时间序列分析和复杂模型训练的可行性。在构建过程中,主要挑战包括:从WHO GHO的API中提取并统一多源异构数据,去除展示字符串的干扰并保留精确浮点数值;处理缺失的置信区间边界值,确保数据结构完整;以及仅筛选WHO非洲区域的国家并进行ISO编码标准化,确保数据集在跨国家比较研究中的一致性和可用性。
常用场景
经典使用场景
该数据集聚焦于非洲地区涂阳肺结核病例检出率这一关键公共卫生指标,涵盖2000至2008年间46个非洲国家的年度观测数据。其经典使用场景在于构建时间序列预测模型与分类任务,用以评估和比较各国在结核病防控方面的进展。借助一致的数据模式与标注完整的置信区间,研究人员可开展国家层面的纵向趋势分析,或将其与其他社会经济指标结合,探究疫情演变的多维驱动因素。
衍生相关工作
该数据集衍生了一系列以非洲为地理焦点、以WHO GHO指标为核心的研究工作,促进了跨国家、跨时间维度的健康数据科学方法发展。相关经典工作包括基于卢森堡回归与机器学习模型对检出率缺失值的插补研究,以及将涂阳检出率与结核病发病率、治疗成功率等联合分析的多指标融合框架。此外,Electric Sheep Africa项目本身作为统一仓储体系,推动了非洲开源健康数据集的标准化与可复现性实践。
数据集最近研究
最新研究方向
当前,非洲结核病涂阳病例检出率数据集正被用于推动机器学习模型在非洲公共卫生监测中的前沿应用。该数据集依托世界卫生组织全球卫生观察站官方数据,覆盖2000至2008年间46个非洲国家,为研究结核病防控成效与区域健康不平等提供了精密的时间序列基础。结合联合国千年发展目标中结核病相关指标,研究者正利用该数据训练分类与回归模型,以预测检出率波动趋势并识别高风险区域,助力精准干预策略制定。在新冠疫情后全球健康安全议程升温背景下,此类数据驱动的分析对优化非洲大陆有限医疗资源配置、加速实现终结结核病流行目标具有关键意义,其开放许可特性亦促进了跨学科协作与政策透明度提升。
以上内容由遇见数据集搜集并总结生成



