five

electricsheepafrica/africa-who-total-number-of-notified-tb-cases

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-total-number-of-notified-tb-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标报告的结核病病例总数(TB_c_notified)在非洲国家的国家级观察数据,时间跨度为2003年至2014年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Total number of notified TB cases (TB_c_notified) across African nations, spanning 2003–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经由electric sheep Africa团队重新整合封装,形成面向机器学习就绪的标准化数据资源。数据集聚焦非洲地区,收录了2003年至2014年间47个非洲国家关于结核病通报病例总数(TB_c_notified)的年度观测值,共计541条记录。所有数值均采用浮点精度的NumericValue字段,并保留了置信区间上下界(value_low、value_high)等辅助信息,最终以Parquet格式存储,确保了数据的一致性与高效可读性。
特点
该数据集具备显著的时空覆盖优势,涵盖非洲47个国家长达12年的连续观测,为区域结核病流行病学分析提供了坚实的基础。数据无额外子维度分层,每一行对应唯一国家与年份组合,结构简洁明了。同时,数据集保留了WHO官方发布的置信区间信息,增强了统计推断的可信度。其统一的列式存储与清晰的字段定义,使得该资源不仅适用于传统的回归与分类任务,也便于开展时间序列分析及跨国比较研究。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,调用load_dataset函数即可获取训练集,并支持转换为pandas DataFrame进行后续处理。针对分析需求,可依据dim1字段筛选出全国层面(性别为Both sexes,即以_BTSX结尾)的记录,或通过country_iso3列过滤特定国家的时间序列数据。此外,数据集中包含的value_low与value_high列,允许在建模时考虑不确定性区间,提升评估的鲁棒性。该数据集兼容分类与回归任务,适用于结核病负担的预测模型构建和政策影响评估。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于WHO全球卫生观察站(GHO)数据基础上构建,聚焦于2003至2014年间非洲47个国家报告的结核病病例总数。结核病作为全球致死率最高的传染病之一,尤其在撒哈拉以南非洲地区构成严峻的公共卫生挑战。该数据集的核心研究问题在于为区域流行病学分析、疾病负担评估以及机器学习驱动的健康预测建模提供标准化、机器可读的底层数据。其影响力体现在填补了非洲结核病统计数据的碎片化空白,通过统一的Parquet格式和简洁的列模式,降低了跨国家、跨年份比较的门槛,对全球健康数据科学和卫生政策分析具有重要意义。
当前挑战
该数据集面临的挑战首先源于领域问题:结核病报告数据在非洲地区普遍存在漏报、诊断覆盖率不均以及卫生系统记录不全的现象,这使得基于报告病例数的建模可能偏离真实负担,对预测模型鲁棒性构成考验。构建过程中,数据需从WHO的OData API提取并转换为统一架构,需处理编码漂移、缺失置信区间、以及由于病例分类差异导致的数值歧义。此外,数据跨度为2003至2014年,样本仅541行,这一有限的观测维度对小样本学习和泛化能力提出了较高要求,限制了基于时间趋势的深度模型应用。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集最为经典的使用场景是进行结核病(TB)通报病例数的时间序列分析与跨国比较。研究者可基于47个非洲国家2003至2014年间共计541条观测记录,按年度与国别维度构建面板数据,揭示区域内结核病疫情通报的时空动态变化。通过提取非分层维度的基准值(value_numeric),能够有效规避因性别或城乡类别划分带来的统计异质性,聚焦于全体人群的整体通报态势,从而为疾病负担评估与防控资源部署提供量化依据。
解决学术问题
该数据集着力解决了非洲地区结核病登记数据的非标准化与可信度局限问题。来源自WHO全球卫生观察站、经统一Parquet格式重构的数据,提供了包含置信区间范围(value_low/value_high)在内的精准数值型通报量,显著降低了因跨机构数据格式混用而导致的统计失真风险。学术研究中往往面临非洲国家卫生统计资料碎片化与缺失严重的困境,此数据集通过规范化整合,使学者得以开展区域总体结核病防控成效的稳健检验,助力揭示通报覆盖率与真实发病率之间的系统偏差,并推进对卫生系统报告能力的理解。
衍生相关工作
由此数据集衍生的经典工作体现在两个方向:一是时空建模与疾病传播推断,研究者往往基于该时间序列结合地理空间信息构建贝叶斯分层模型或GAM(广义加性模型),以厘清年份变迁与区域差异对通报病例数的解释力;二是与WHO GHO系列其他指标(如结核病发病率、治疗成功率等)联合分析,发展出多变量健康数据整合框架,为跨病种流行病学比较奠定基础。Electric Sheep Africa项目本身亦可视为面向非洲的ML-Ready数据生态建设先驱,其统一的模式与接口设计启发后续类似非洲健康数据集的标准化重发布。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务