five

electricsheepafrica/africa-who-tuberculosis-new-and-relapse-cases-tbcnewinc

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tuberculosis-new-and-relapse-cases-tbcnewinc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2000年至2024年间世界卫生组织全球健康观察指标结核病 - 新发和复发病例(TB_c_newinc)的国家级观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总计1,134行数据,属于WHO AFRO区域(ParentLocationCode = AFR)。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。

This dataset contains country-level observations for the WHO GHO indicator Tuberculosis - new and relapse cases (TB_c_newinc) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,134 rows, filtered to the WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区结核病新发与复发病例的流行病学指标(TB_c_newinc)。数据经过标准化处理,以Parquet格式存储,并统一纳入Electric Sheep Africa项目框架。构建过程中,所有数值均采用浮点精度的NumericValue字段,而非显示字符串,同时保留置信区间上下限(value_low, value_high),以确保数据的统计严谨性与机器学习兼容性。该数据集覆盖2000至2024年间47个非洲国家,共计1134条记录,每条记录对应特定国家与年份的单一观测值,未引入子维度分层。
特点
该数据集的核心特点在于其聚焦性与结构化程度。专为结核病新发与复发监测设计,数据颗粒度精确至国家-年份级别,无冗余子维度,极大简化了时间序列分析与跨国家比较的复杂度。同时,数据来源权威、更新及时,并包含置信区间信息,为不确定性建模与流行病学推断提供了坚实基础。此外,统一的模式设计(包括indicator_code、country_iso3、value_numeric等字段)便于与同系列其他非洲健康数据集无缝集成,支持多指标联合分析。
使用方法
用户可通过HuggingFace datasets库便捷加载数据,如使用load_dataset函数直接获取训练集,并转换为pandas DataFrame进行后续操作。典型应用场景包括过滤仅包含两性合计(BTSX)的国家级数据,或针对特定国家(如肯尼亚)提取时间序列用于趋势分析。数据格式友好,既适用于监督学习中的回归与分类任务,亦可作为时空流行病学建模的基础输入。建议在使用前检查dim1列以排除亚群分层干扰,确保分析聚焦于总体水平。
背景与挑战
背景概述
结核病作为全球公共卫生领域的重大挑战,在非洲大陆尤为严峻,世界卫生组织非洲区域承载着全球约四分之一的结核病负担。在此背景下,Electric Sheep Africa团队与世界卫生组织全球卫生观察站(GHO)合作,于2024年构建了“africa-who-tuberculosis-new-and-relapse-cases”数据集。该数据集汇聚了2000至2024年间47个非洲国家关于新发与复发性结核病例的年度观测数据,总计1134条记录。其核心研究问题聚焦于利用机器学习方法对非洲区域结核病负担进行时间序列预测与趋势分析,为资源分配和公共卫生决策提供数据驱动的洞察。该数据集的发布填补了非洲结核病领域高质量、标准化、可直接用于机器学习的结构化数据的空白,对推动区域健康数据科学研究和循证政策制定具有深远影响。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:结核病作为可防可治的传染病,在非洲的防控却长期受限于数据稀疏性与报告延迟,导致传统统计模型难以精准捕捉时空动态。构建过程中面临的核心挑战包括:数据整合的复杂性,原始WHO数据跨多年、多国且存在缺失与置信区间标识不一的问题,需统一清洗为浮点数值;国家间卫生记录系统的异质性导致部分年份的数值缺失,需审慎处理以确保模型稳健性;此外,数据集虽覆盖2000至2024年,但早期年份的观测粒度较粗,数据质量与近期年份存在差异,对时序预测任务构成额外考验。
常用场景
经典使用场景
africa-who-tuberculosis-new-and-relapse-cases-tbcnewinc数据集汇聚了2000至2024年间非洲47个国家关于结核病新发与复发案例的年度观测数据,为流行病学与公共卫生领域提供了珍贵的结构化时间序列资源。该数据集最经典的使用场景在于构建预测模型,以估计未来结核病负担的演变趋势。研究者可借助该数据训练回归或分类模型,例如预测特定国家或地区结核病新发病例数的波动,进而评估干预措施的有效性。此外,通过分析不同国家间的数据差异,该数据集亦支持探索社会经济、地理环境等因素对结核病传播的影响,为制定区域性防控策略奠定数据基础。
解决学术问题
该数据集的核心价值在于解决了非洲结核病监测数据碎片化、不一致的学术难题,长期以来,缺乏统一、机器可读的结构化数据限制了跨国比较研究和深度学习模型的广泛应用。通过将世界卫生组织全球卫生观察站(WHO GHO)的官方数据重新打包为Parquet格式,并辅以置信区间信息,该数据集显著提升了数据质量和可用性。它使研究者能够系统性地分析结核病在非洲大陆的时空传播模式,探究气候变化、人口迁移、医疗资源分布等变量与疾病负担之间的关联,从而推动诸如传染病的时空建模、公共卫生政策评估及健康经济学中的成本效益分析等前沿学术问题的发展。
衍生相关工作
该数据集衍生了一系列在机器学习和公共卫生交叉领域具影响力的经典工作。例如,研究者基于该数据构建了时间序列预测模型(如长短期记忆网络LSTM和Prophet),对非洲各国未来结核病发病率进行预测,并与WHO官方估计进行比对验证。另有工作聚焦于多变量回归分析,探究结核病复发率与HIV感染率、结核病治疗覆盖率等协变量间的非线性关系,从而揭示了疾病传播的复杂驱动因素。此外,该数据集还被用于开发区域聚类算法,根据结核病负担特征将非洲国家分为不同类型,为定制化防控策略提供统计学依据。这些衍生研究不仅验证了数据集的实用价值,更拓展了其在全球健康治理中的应用深度。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务