five

electricsheepafrica/africa-who-new-or-unknown-treatment-history-cases-pulmonary

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-or-unknown-treatment-history-cases-pulmonary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2013年至2023年间,关于世界卫生组织全球健康观察站(WHO GHO)指标“新发或未知治疗史病例:肺部细菌学确认”(TB_new_labconf)的国家级观察数据。数据来源于WHO GHO OData API,并以Parquet格式重新打包,包含数值估计、置信区间等信息。数据集覆盖47个非洲国家,共515行数据,每行数据包含国家代码、年份、数值估计、置信区间等字段。

This dataset contains country-level observations for the WHO GHO indicator "New or unknown treatment history cases: Pulmonary, bacteriologically confirmed" (`TB_new_labconf`) across African nations, spanning 2013–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区结核病防控领域的关键指标——‘新发或未知治疗史的肺结核细菌学确诊病例数’。原始数据经过系统化清洗与重封装,以Parquet格式存储并统一模式,提取了浮点精度的数值字段作为核心观测值,同时纳入了置信区间上下限(若存在)。数据集覆盖47个非洲国家在2013至2023年间共515条记录,每一行代表特定国家与年份的单一指标数值,确保无子维度分层干扰。其构建过程严格遵循WHO AFRO区域过滤标准,仅保留ParentLocationCode为‘AFR’的观测,从而为非洲地区的结核病流行病学分析提供了高精度、可直接用于机器学习的基础数据源。
使用方法
在使用时,用户可通过HuggingFace的datasets库便捷加载数据,例如使用`load_dataset()`函数获取训练集并转换为Pandas DataFrame进行后续分析。推荐通过筛选`dim1`字段中代表‘两性’的标识(如`SEX_BTSX`)或直接选取无维度约束的行,以获得全国层面、不分性别的基准数值,从而简化分析框架。针对国家层面的纵向研究,可按`country_iso3`列过滤指定国家并按年份排序,构建时间序列模型。数据集还可应用于回归预测任务,将`value_numeric`列作为目标,借助年份、国家编码等特征探索结核病发病率变化趋势,或结合置信区间评估预测的不确定性。
背景与挑战
背景概述
结核病作为全球公共卫生领域的重大挑战,尤其在非洲地区持续构成严峻威胁。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测结核病疫情动态,其中“新发或未知治疗史的肺部细菌学确诊病例”指标(TB_new_labconf)是评估结核病传播态势与诊疗覆盖的核心参数。该数据集由Electric Sheep Africa团队于2023年整合发布,基于WHO官方OData API采集,覆盖2013至2023年间47个非洲国家的年度观测数据,总计515条记录,旨在为机器学习与统计建模提供统一、高质量的结构化资料。作为非洲健康数据生态系统的重要补充,该数据集填补了区域级结核病流行病学数据在标准化、机器可读性方面的空白,为跨境健康研究、政策制定及公共卫生干预提供了坚实的数据基础。
当前挑战
该数据集所应对的核心领域挑战在于非洲结核病流行病学监测的数据碎片化与异构性问题。非洲各国卫生信息系统发展不均衡,原始数据常存在定义不一致、缺失值比例高、时间序列不连续等缺陷,阻碍跨国家、跨时期的比较分析与预测建模。数据集构建过程中,面临从WHO OData API高效获取并解析多维度指标的技术难题,需处理指标编码映射、置信区间提取以及非结构化显示字段(如“58.3 [57.7–59.0]”)向数值变量的转换。此外,由于部分观测缺少性别或城乡亚层标识,如何在不引入偏差的前提下实现跨维度的聚合与对齐,也成为确保数据质量与建模适用性的关键瓶颈。
常用场景
经典使用场景
在结核病流行病学与公共卫生监测领域,非洲地区新发或未知治疗史的痰菌阳性肺结核病例数据集(africa-who-new-or-unknown-treatment-history-cases-pulmonary)堪称一座蕴藏丰富的信息宝库。该数据集荟萃了2013至2023年间47个非洲国家的国家级观测数据,聚焦于经细菌学确诊的肺结核病例。其最经典的使用场景当属构建时间序列预测模型,通过对历年病例数的精妙分析,洞悉疫情演变规律与潜在波动。研究者亦可借助该数据集开展跨国比较研究,解析不同国家间结核病负担的差异及其背后的社会经济、卫生系统因素,从而为精准防控策略的制定提供坚实的数据基石。
解决学术问题
该数据集精准地回应了长期困扰结核病研究领域的几个核心学术难题。其一,它有效缓解了非洲地区高质量、标准化结核病病例数据的匮乏问题,为验证和校准疾病传播动力学模型提供了宝贵的经验基石。其二,通过提供置信区间等不确定性度量信息,它激励学者采用贝叶斯统计等方法,更严谨地评估干预措施的实际效果,而非仅依赖点估计。其三,跨年度、多国家的面板数据结构,使得研究人员能够运用固定效应模型或工具变量法等因果推断工具,探究卫生政策变迁、气候变化、人口流动等宏观因素对结核病报告率的真实影响,极大提升了因果识别的科学性与可靠性。
实际应用
在实际应用层面,该数据集的价值远不止于学术殿堂,它已深度融入非洲公共卫生决策的方方面面。世界卫生组织与各国疾病控制中心可借助该数据集实时监测区域结核病控制目标的完成进度,精准识别疫情反弹或防控薄弱环节。非政府组织在规划资源投入,如分配诊断试剂、抗结核药品时,可依据该数据集提供的发病趋势数据进行科学预算与优先排序。此外,在传染病建模领域,该数据常被用作标准输入参数,驱动诸如个体基模型或仓室模型,模拟不同疫苗接种策略或治疗方案推广对疫情走向的潜在影响,从而为决策者提供量化、可视化的政策优化路径。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区肺结核新发或未知治疗史病例的流行病学监测,为机器学习驱动的结核病负担评估与资源分配提供了关键基础。在全球健康研究前沿,它直接服务于世界卫生组织(WHO)终结结核病战略中针对高负担地区的精准干预建模。近期研究热点集中在其与非洲抗药性结核病突增事件的联动分析,以及利用时空序列模型预测疫情热点转换。此数据集的标准化、机器就绪格式消除了传统卫生统计中的格式壁垒,使得数据驱动型健康治理在非洲得以规模化落地,对推动全球公共卫生决策从经验判断向可计算模拟的范式转变具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务