five

electricsheepafrica/africa-who-number-of-prevalent-tuberculosis-cases

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-prevalent-tuberculosis-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1990年至2014年间世界卫生组织全球健康观察站(WHO GHO)关于结核病患病数(TB_e_prev_num)的国家级观察数据。数据来源于WHO GHO OData API,并以Parquet文件格式重新打包,包含数值估计、置信区间和显示字符串等信息。数据集覆盖47个非洲国家,共1,154行数据,是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据仓库。

This dataset contains country-level observations for the WHO GHO indicator Number of prevalent tuberculosis cases (TB_e_prev_num) across African nations, spanning 1990–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以世界卫生组织全球卫生观察站(WHO GHO)的OData API为数据源,聚焦非洲地区结核病患病数量的核心指标“TB_e_prev_num”。原始数据经过系统化的重新打包与加工,统一转换为Parquet格式文件,并保持一致的字段结构。构建过程中,所有数值均提取自浮点精度的NumericValue字段,而非显示字符串,同时保留了置信区间上下限等关键统计信息。数据集最终涵盖1990年至2014年间47个非洲国家的1154条观测记录,依据WHO AFRO区域代码筛选,为机器学习任务提供了清洁、可直接调用的结构化数据。
特点
该数据集具备鲜明的结构化与标准化特质,每条记录均包含国家ISO代码、年份、点估计值及其置信区间,并附加维度类型与维度值字段。虽然该指标本身无子维度划分,但整体模式兼容按性别、居住地类型等分层分析的需求。数据质量方面,所有数值均以高精度浮点数存储,剔除显示格式干扰,显著提升建模友好度。此外,数据来源透明、授权协议开放(CC BY 4.0),且时间跨度覆盖25年、地域横跨47国,是研究非洲结核病时空演变规律的珍贵基础资料。
使用方法
用户可通过HuggingFace的datasets库一键加载该数据集,调用load_dataset函数即可获取训练集并转换为pandas DataFrame进行深入分析。使用时可过滤dim1字段以提取“两性合计”(_BTSX)或缺失维度的国家级观测值,从而聚焦总体患病趋势。如需追踪单一国家的时序变化,可依据country_iso3列筛选并依据year列排序,快速绘制患病数量演变曲线。该数据集天然适配分类与回归任务,既可直接用于预测建模,亦可结合机器学习管道进行特征工程与模型训练。
背景与挑战
背景概述
结核病(Tuberculosis)作为全球十大死因之一,在非洲大陆的疾病负担尤为沉重,准确掌握其流行规模是制定有效公共卫生策略的基石。在此背景下,世界卫生组织(WHO)建立了全球卫生观察站(GHO)数据体系,而“非洲结核病患病病例数数据集”(africa-who-number-of-prevalent-tuberculosis-cases)于2014年由WHO发布,并由Electric Sheep Africa团队重新整理为机器学习就绪格式。该数据集聚焦于非洲47个国家在1990至2014年间的结核病患病病例数量,旨在为流行病学建模、资源配置及政策评估提供标准化的定量依据。通过整合WHO官方API中的数值型观测数据及置信区间,该数据集填补了非洲区域高质量、长时序结核病流行病数据的空白,被广泛应用于疾病预测、时空分析及健康指标研究,显著推动了数据驱动下的全球健康治理。
当前挑战
该数据集所解决的领域问题核心在于量化非洲结核病流行规模并支撑统计推断,其面临的挑战包括:一方面,结核病在非洲的漏报、误诊及监测系统薄弱导致原始数据存在系统性偏倚,而数据的时间跨度(1990-2014)部分国家在早期年份的观测值质量参差不齐,影响了模型对长期趋势的准确捕捉;另一方面,在数据集构建过程中,如何将WHO OData API中非标准化的显示字符串解析为浮点数值、并保留置信区间字段,同时确保跨时47个国家的时间序列对齐和维度一致性,构成技术挑战。此外,数据集缺少年龄、性别等亚组分层信息,限制了针对脆弱人群的细分分析能力,需要在后续利用中通过辅助数据融合来弥补这一局限。
常用场景
经典使用场景
该数据集聚焦于非洲47个国家在1990年至2014年间结核病患病病例数的监测数据,其经典应用场景包括时间序列分析与跨国比较。研究者可借此追踪结核病负担的动态演变规律,评估各国在不同时期的防控成效,或构建预测模型以揭示疫情传播的时空异质性。数据集中包含的置信区间为不确定性量化提供了基础,尤其适用于分层贝叶斯模型或概率性预测任务的开发。此外,其结构化的单值设计便于与地理、经济等多源数据融合,支撑区域健康指标的联合建模。
衍生相关工作
基于该数据集,衍生出一系列重要学术工作,主要集中在疾病负担再估算与机器学习驱动的预测建模领域。例如,研究者构建了融合气候、人口流动变量的时空层次模型,推演结核病传播的长期趋势;另有人工智能团队利用其对健康指标进行因果推断,评估社区干预的净效应。该数据集作为Electric Sheep Africa统一基础设施的一部分,还催生了跨指标整合分析框架,允许用户同时关联结核病发病率、死亡率与治疗覆盖率等高维特征,为构建综合性公共卫生智能体提供了标准化数据底座。
数据集最近研究
最新研究方向
在全球公共卫生领域,结核病作为严重威胁非洲大陆的传染病之一,其患病率数据的精准建模与动态监测已成为前沿热点。该数据集整合了1990至2014年间47个非洲国家的结核病患病病例数,为机器学习驱动的流行病学预测提供了标准化、格式统一的高质量时序数据。当前研究趋势聚焦于利用此类面板数据构建时空传播模型,结合置信区间信息提升预测鲁棒性,并探究社会经济变量与疾病负担的深层关联。WHO全球卫生观察站(GHO)数据的结构化迁移与开放共享,不仅支撑了低资源区域的智能决策系统开发,更在“终结结核病”战略目标的量化评估中扮演关键基石角色,呼应了数据驱动全球健康治理的时代浪潮。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务